最近要批量下载某个方向的一些文献,准备通过sci-hub来下载,在找python爬虫的方式下载文献的时候发现了scihub2pdf工具。
一开始是看到这篇文章:利用python下载scihub成文献为PDF,在里面看到了一个批量下载scihub文献的的工具:scihub2pdf
我是在ubuntu系统里操作的安装的方式和官网里的差不多:
Install
$ pip3 install scihub2pdf
Linux Using npm
$ sudo apt-get install npm
$ sudo npm install -g phantomjs
安装后还有一件事:修改源码,源码里的地址为http://sci-hub.cc开头的,我要使用的网站是https://scihubtw.tw/,这个👇
修改源码: download.py里的42行,我的改为如下
我的download.py文件在/usr/local/lib/python3.6/ddist-packges/scihub2pdf 里
具体使用方法:
通过DOI值
$ scihub2pdf 10.1038/s41524-017-0032-0
我的使用👇
批量使用DOI
txt文件里内容:
10.1038/s41524-017-0032-0
10.1063/1.3149495
.....
$ scihub2pdf -i dois.txt --txt
我的使用👇
小tips:
1、下载时,我是在root用户下使用的。
2、下载文件的路径,即你的root打开目录。
3、下载下来有一个png图片,我不想要图片,可以在scihub.py的162行注销,就不会有了
4、将doi放在txt文件里批量下载的时候,让txt文件在你打开的文件里面就可以了。我是放在这个文件里面的
5、在普通用户下,出现ghostdriver.log文件权限问题时,修改权限即可在普通用户下使用。