目录
博主最近做了个项目,用来自微软270GB左右的论文数据研究论文引用网络。博主抽象出了一张有1亿多个结点,9亿多条边的引用图。每个结点代表一篇论文,每条边代表一条引用。现在大部分搜索引擎使用PageRank算法来评估网页的重要度。我突发奇想,试着用PageRank算法来评估论文的重要度,并根据论文的第一作者所属的机构来评估学术机构的世界排名。
结果如下
艺术
生物学
商学
化学
计算机科学
经济学
工程学
环境科学
地理学
地质学
历史学
材料科学
数学
医学
哲学
物理学
政治科学
心理学
社会学
分析
加州大学所有的分校全都合并在了一起,因此它的总量非常庞大。美国的学术机构在前20名中占据绝对优势。中国、英国、加拿大、日本、俄罗斯次之。
用论文来评价研究机构的学术水平主要有以下劣势:
- 只能评价近几十年来的学术情况。百年前,科学是个人的追求,没有发论文的指标要求。现在,科学是国家重点扶持的产业,用论文数量和发表地衡量科研工作者的绩效。
- 很多学术成就无法用论文衡量,或者并没有以论文的形式发表。
- 对学术传统与英美体系不同的国家不利,比如法国、德国、意大利。
另外,代码中识别作者所属机构的机制可能不全面或者有误。