给定一位研究者论文被引用次数的数组(被引用次数是非负整数)。编写一个方法,计算出研究者的 h 指数。
h 指数的定义:h 代表“高引用次数”(high citations),一名科研人员的 h 指数是指他(她)的 (N 篇论文中)总共有 h 篇论文分别被引用了至少 h 次。(其余的 N - h 篇论文每篇被引用次数 不超过 h 次。)
例如:某人的 h 指数是 20,这表示他已发表的论文中,每篇被引用了至少 20 次的论文总共有 20 篇。
示例:
输入:citations = [3,0,6,1,5]
输出:3
解释:给定数组表示研究者总共有 5 篇论文,每篇论文相应的被引用了 3, 0, 6, 1, 5 次。
由于研究者有 3 篇论文每篇 至少 被引用了 3 次,其余两篇论文每篇被引用 不多于 3 次,所以她的 h 指数是 3。
提示:如果 h 有多种可能的值,h 指数是其中最大的那个。
来源:力扣(LeetCode)
链接:https://leetcode-cn.com/problems/h-index
方法一:排序
首先我们将引用次数降序排序,在排完序的数组 \mathrm{citations}citations 中,如果 \mathrm{citations}[i] \gt icitations[i]>i,那么说明第 0 到 ii 篇论文都有至少 i+1i+1 次引用。因此我们只要找到最大的 ii 满足 \mathrm{citations}[i] \gt icitations[i]>i,那么 hh 指数即为 i+1i+1。例如:
- 将 citations 数组升序排序;
- 用 i 表示数组索引,h 表示 h 指数;
- 如果 i >= 0 && citations[i] > h,就说明第 i + 1 到 第 citations.length 篇论文至少有 h 次引用。
public static int hIndex(int[] citations) {
Arrays.sort(citations);
int i = citations.length - 1, h = 0;
while (i >= 0 && citations[i] > h) {
i--;
h++;
}
return h;
}
方法二:计数
如果一篇文章的引用次数超过论文的总数 n,那么将它的引用次数降低为 n 也不会改变 h 指数的值。
首先,引用次数如下所示:
将所有大于 n=5 的引用次数变为 n,得到:
计数排序得到的结果如下:
k | 0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|---|
count | 0 | 1 | 1 | 2 | 0 | 1 |
sk | 5 | 5 | 4 | 3 | 1 | 1 |
其中 sk 表示至少有 k 次引用的论文数量,在表中即为在它之后的列(包括本身)的 count 一行的和。根据定义,最大的满足 k ≤ sk 的 k 即为所求的 h。在表中,这个 k 为 3,因此 h 指数为 3。
public static int hIndex2(int[] citations) {
int n = citations.length;
int[] count = new int[n + 1];
// 计数
for (int c: citations)
count[Math.min(n, c)]++;
// 找出最大的 k
int k = n;
for (int sk = count[n]; k > sk; sk += count[k])
k--;
return k;
}