python如何爬取sci论文_通过爬虫确定SCI期刊的发表周期

众所周知,SCI发表周期较长,从投稿到见刊时间跨度超过2年也不罕见,如果运气不好,文章投出去石沉大海,用几个月的时间等来一封拒稿信,很可能会影响到博士毕业或职称评选。因此,为了尽量避免漫长的等待过程,让自己的大作早日见刊,很有必要在投稿前先考察一下期刊的发表效率。

部分期刊的官网或出版商会公布该期刊的平均审稿时长,可作为参考,但Dr.Wu指出,存在官方给出的审稿周期与实际严重不符的现象,有刻意调低、美化诱导之嫌(心机๑乛◡乛๑)。此外,有些科研助力平台如LetPub等构建了SCI期刊查询及投稿分析系统,可以直接查询目标期刊的投稿周期,但这些数据是基于网友的经验分享,准确性存疑。既然这样,为了准确确定SCI期刊的发表效率,就只能自己动手,提取目标期刊近期发表论文的日期信息,统计平均审稿时长,爬虫就派上了用场。

这里主要利用Python对Science Direct数据库进行爬取,选择Science Direct,因为它的论文浏览页面直接显示了从收稿到发表的时间信息,无需下载全文即可抓取需要的数据,大大节省了时间和流量。如下图所示,Science Direct提供了论文的收稿、修改、录用、见网、见刊时间。用这些数据我们可以计算编辑的审稿周期、论文见网和见刊的周期。计算方法如下:

编辑审稿周期≈论文修改后的提交时间-收稿时间

论文录用周期=录用时间-收稿时间

论文见网周期=见网时间-收稿时间

论文见刊周期=见刊时间-收稿时间Science Direct提供论文的日期信息

这里再提一句,Science Direct对于爬虫相对友好(好欺负),没有验证码识别或动态cookie,亲测当请求量较低时,就算使用固定IP,也不会被服务器封杀。

简单说下爬虫思路。因为Science Direct支持按照研究领域对期刊进行划分,这方便我们一次性爬取同一领域内的全部期刊的论文日期信息。这里不妨以Engineering类别下的Ocean Engineering(因为我就是做这个的,哈哈)分类为例,共计收录12本SCI期刊。注意到每本期刊的论文目录网址具有规律性,如 Applied Ocean Research期刊的第94期论文目录,链接为 https://www.sciencedirect.com/journal/applied-ocean-research/vol/94/suppl/C,由ScienceDirect主页网址、期刊名、期数和固定字符组成,我们只要改变期刊名以及期数,就可以遍历不同期刊每一期的论文目录。随后,在论文目录页面中,我们抓取每篇论文的链接,并从这些论文的链接中进一步获取相应的时间信息。

本人爬取了上述12本SCI期刊最近2期的论文,由于其中一本期刊已长期不更新,故排除在统计范围之外,经过整理,共计抓取到334篇具有日期信息的论文,发表时间集中在近2年内。爬得的论文信息excel表

统计了这11本SCI期刊论文的平均审稿、见网和见刊周期,发现不同期刊的发表速度还是存在着很大差异的,快的期刊平均32周可以见刊,慢的达到58周,有的刊物从录用到发表,可以在2个月内完成,而有的则超过半年。 具体细节可参考下图。Ocean Engineering领域11本SCI期刊的发表效率对比

本文主要提供了一种解决问题的思路,掌握必要的自动化工具和编程技巧,能够帮助我们从海量的数据中准确定位并挖掘出有价值的信息,特别是在处理期刊发表周期这类零散的信息时,其效率是人工手动方法难以企及的。

注:因为程序的功能较为单一(其实是因为写的特别混乱 ●'◡'●),代码暂时就不贴出来了,后期我会对代码进行重构和优化,进一步提升运行效率,加入用户操作界面,完善和补充功能,敬请期待,嘻嘻。

~~~~~~~~ 2020-4-8,别期待了,楼主已废,哈哈哈哈哈哈哈哈嘎

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值