python爬取文献代码_爬取Pubmed文献及影响因子并尝试下载的脚本

Abstract

本脚本实现了通过Biopython爬取pubmed文献资料,并通过scholarscope爬取影响因子数据,最后尝试通过sci-hub下载文献,三位一体的方法。

Introduction

众所周知,在pubmed不断滑动鼠标找IF和标题比较合适的文献是很费时的事情,经常消磨学习的精力,尤其是scholarscope虽然显示了IF,但没办法在网页上过滤低IF的文章。鉴于前人脚本都没有假如IF这个因素,故本文在前人代码及自学补充的基础上,添加爬取IF的功能,为后人继续完善批量化操作提供宝贵经验。

Results and Discussion

1、通过给出关键词,返回包含PMID、Title、Journal、IF、publish_date、Abstract、DOI信息的excel表。之后就是正常excel筛选排序过滤的操作了,IF抓取失败率大概在1/10。值得一提的是,像PNAS、Angew Chem等常见杂志也会抓取失败,不过可以简单通过在IF栏筛选抓取失败的,同时在Journal栏将刊物归类排序后,保留熟悉刊物即可。Fig.1 爬取进度

Fig.2 爬取结果

2、通过DOI批量下载文献。结果不尽如人意,但作者也从pypi使用了部分包,但发现其实大家下载的成功率其实都挺低的,此部分目前有待后人的进一步研究。Fig.3 尝试下载文献pdf

Methods

依赖项

Fig.4 依赖项

Code available

https://github.com/Knight-oOf-Night/grab-pubmed-info.git

References

参考biopython文档,部分scihub相关pypi包源码,及一些requests教程

Acknowledgements

kono dio da!

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值