爬取Google Scholar论文列表,如何利用公开数据进行合著作者分析?

本文介绍了如何爬取Google Scholar的论文列表,并进行合著作者分析。通过爬虫获取教授的论文信息,提取作者数据,统计合著情况,以帮助在选择导师时减少误导。文章提供了实现步骤和正则表达式示例。
摘要由CSDN通过智能技术生成

 

Preface

之前同学读研选导师,帮忙参考了一下。我发现有些老师很年轻,但是 Google Scholar 各项数据都高得离谱(主要是 citation 和 h-index ),甚至轻松碾压一些在人口耳的小牛导。直觉上来说这种应该是数据虚高了,我猜测是因为老师之间合作比较多,一篇文章挂好几个老师的名字,而这种成果共享在 gs 上的体现就是,每个人都多了一篇文章。编程学习资料点击免费领取

虽然参与论文即需署名是基本的学术规范,老师们合作并共享成果肯定是没问题的,但是这会导致老师的 gs 数据虚高,进而对学生产生一定误导。因此,我们可以利用 gs 上的公开数据,分析一下老师们的合著情况,比如看看所有论文中,平均每篇文章由多少位老师参与……这些信息可以在我们选导师的时候帮助我们降低噪声,提供一定参考。

原理

要想分析一位老师的合著情况,首先我们需要获取这位老师的所有出版物,可以从 Google Scholar 上爬取该老师的论文列表。得到论文列表之后,我们需要提取出每篇文章的作者,然后对这些作者的出现频次进行排序。最后,就要依靠自己的先验知识来判断了,如果比较熟悉学院里各位老师的话,可以直接认出来哪些人是老师。对于代码实现而言,需要做的就是爬

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值