H指数和G指数的Java实现
H指数
h指数(也叫h-index )是一个混合量化指标,最初是由美国加利福尼亚大学圣地亚哥分校的物理学家乔治赫希,他可以简单的解读为有 H 篇论文被引用了不少于 H 次,H指数主要衡量了论文的数量和影响力,因此H指数也能从一定水平上象。
private int hIndex(int[] citations) {
// 排序(注意这里是升序排序,因此下面需要倒序扫描)
Arrays.sort(citations);
// 线性扫描找出最大的 i
int i = 0;
while (i < citations.length && citations[citations.length - 1 - i] > i) {
i++;
}
return i;
}
G指数
g指数是h指数的衍生指数,主要是弥补h指数不能很好反应高被引论文的缺陷提出的, g指数定义为:论文按被引次数排序后相对排前的累积被引至少g2次的最大论文序次g,亦即第(g+1)序次论文对应的累积引文数将小于(g+1)2。
2006年, Egghe提出了g指数, g指数定义为:论文按被引次数排序后相对排前的累积被引至少g2次的最大论文序次g,亦即第(g+1)序次论文对应的累积引文数将小于(g+1)2。从定义可以看出,g≥h,而按被引量排序靠前的文章的被引次数越大,g指数越大。
2006年,Egghe在分析h指数评价效果时,提出了一种基于学者以往贡献的g指数———将论文按被引次数由高自低排序,将序号平方,被引次数按序号层层累加,当序号平方等于累计被引次数时,该序号则为g指数。 如序号平方不是恰好等于而是小于对应的累计被引次数,则最接近累计被引次数的序号即为g指数。和h值一样,g值越大说明该学者的学术影响力越大、学术成就越高,通常作为h指数的补充或提高。
private int gIndex(int[] citations) {
// 先升序排序
Arrays.sort(citations);
// 再倒转变成降序
ArrayUtils.reverse(citations);
// 累计被引次数
int cumulative = 0;
// 差值
long difference = 0;
int gIndex = 0;
for (int i = 0; i < citations.length; i++) {
cumulative += citations[i];
long square = (citations.length - i) * (citations.length - i);
// 如果序号平方正好等于累计被引数,则该序号是g指数
if (cumulative == square) {
return citations.length - i;
}
// 如果一直没有等于的情况,最接近累计被引次数的序号即为g指数
// 大于的情况不计算
if (square < cumulative) {
if (difference == 0) {
difference = cumulative - square;
gIndex = citations.length - i;
}
if (cumulative - square < difference) {
gIndex = citations.length - i;
}
}
}
return gIndex;
}