Abstract
本脚本实现了通过Biopython爬取pubmed文献资料,并通过scholarscope爬取影响因子数据,最后尝试通过sci-hub下载文献,三位一体的方法。
Introduction
众所周知,在pubmed不断滑动鼠标找IF和标题比较合适的文献是很费时的事情,经常消磨学习的精力,尤其是scholarscope虽然显示了IF,但没办法在网页上过滤低IF的文章。鉴于前人脚本都没有假如IF这个因素,故本文在前人代码及自学补充的基础上,添加爬取IF的功能,为后人继续完善批量化操作提供宝贵经验。
Results and Discussion
1、通过给出关键词,返回包含PMID、Title、Journal、IF、publish_date、Abstract、DOI信息的excel表。之后就是正常excel筛选排序过滤的操作了,IF抓取失败率大概在1/10。值得一提的是,像PNAS、Angew Chem等常见杂志也会抓取失败,不过可以简单通过在IF栏筛选抓取失败的,同时在Journal栏将刊物归类排序后,保留熟悉刊物即可。Fig.1 爬取进度
Fig.2 爬取结果
2、通过DOI批量下载文献。结果不尽如人意,但作者也从pypi使用了部分包,但发现其实大家下载的成功率其实都挺低的,此部分目前有待后人的进一步研究。Fig.3 尝试下载文献pdf
Methods
依赖项
Fig.4 依赖项
Code available
https://github.com/Knight-oOf-Night/grab-pubmed-info.git
References
参考biopython文档,部分scihub相关pypi包源码,及一些requests教程
Acknowledgements
kono dio da!