Python 超强文献下载工具 Scihub-cn 又更新啦！

最新推荐文章于 2024-10-18 12:11:42 发布

Python数据之道

最新推荐文章于 2024-10-18 12:11:42 发布

阅读量1.6k

点赞数 1

文章标签： python java 大数据人工智能数据库

原文链接：https://mp.weixin.qq.com/s?__biz=MzI2NjY5NzI0NA==&mid=2247512166&idx=3&sn=735d3385e2321eff675356d9ef7109e9&chksm=ea88df15ddff5603a21516edda0a6356f269a2a833260860f84e69e3eb289c3c3a52be6f711f&scene=126&&sessionid=0

版权

Scihub-cn 开发维护到现在已经2年多了，感谢各位朋友的使用和支持，尤其是那些参与开源贡献的朋友，本人工作比较繁忙，正是有这些朋友帮忙维护和改进项目，才给这个项目提供了长久的生命力，非常感谢他们。

本次升级主要是修复Scihub-cn下载的时候总是报 "scihub数据库不存在这篇论文！" 的错误，这个错误是由于scihub反爬及页面改版导致的。前几个月Scihub-cn一直处于无法使用的状态，现在你只要更新最新版代码就可以使用了。

接下来还是给大家正式介绍一下使用方式。

1.准备

pip install --upgrade scihub-cn

不过请注意，scihub-cn依赖 aiohttp 模块进行并发的下载，因此支持的最低Python版本为3.6.

项目源代码：https://github.com/Ckend/scihub-cn

2.Scihub-cn 使用方法

2.1 使用DOI号下载论文

首先让我们来试试根据DOI号下载文献：

scihub-cn -d 10.1038/s41524-017-0032-0

下载的论文会自动生成在当前文件夹下：

你也可以选择将其下载到任意目录下，只需要添加 -o 参数：

scihub-cn -d 10.1038/s41524-017-0032-0 -o D:\papers

这将会把这篇论文下载到D盘的papers文件夹中。

2.2 根据关键词下载论文

使用 -w 参数指定一个关键词，可以通过关键词下载论文：

scihub-cn -w reinforcement

效果如下：

同样滴，它也支持-o参数指定文件夹。此外，这里默认使用的搜索引擎是百度学术，你也可以使用Google学术、publons、science_direct等。通过指定 -e 参数即可：

scihub-cn -w reinforcement -e google_scholar

为了避免Google学术无法连接，你还可以增加代理 -p 参数：

scihub-cn -w reinforcement -e google_scholar -p http://127.0.0.1:10808

访问外网数据源的时候，增加代理能避免出现Connection closed等问题。

此外，你还能限定下载的篇目, 比如我希望下载100篇文章：

scihub-cn -w reinforcement -l 100

2.3 根据url下载论文

给定任意论文地址，可以让scihub-cn尝试去下载该论文：

scihub-cn -u https://ieeexplore.ieee.org/document/26502

使用 -u 参数指定论文链接即可，非常方便。

3.批量下载论文

当然，之前花了几篇文章优化的批量下载模块这个版本肯定少不了！

而且还增加了几种新的批量下载方式：

1. 根据给出所有论文名称的txt文本文件下载论文。

2. 根据给出所有论文url的txt文件下载论文。

3. 根据给出所有论文DOI号的txt文本文件下载论文。

4. 根据给出bibtex文件下载论文。

比如，根据给出所有论文URL的txt文件下载论文：

scihub-cn -i urls.txt --url

效果如下：

可以看到，文件内有4个论文链接，而他也成功地下载到了这4篇论文。

再试试放了DOI号的txt文件的批量下载：

scihub-cn -i dois.txt --doi

效果如下：

你可以输入 scihub-cn --help 看到更多的参数说明:

$scihub-cn --help
... ...
optional arguments:
  -h, --help show this help message and exit
  -u URL input the download url
  -d DOI input the download doi
  --input INPUTFILE, -i INPUTFILE
                        input download file
  -w WORDS, --words WORDS
                        download from some key words,keywords are linked by
                        _,like machine_learning.
  --title download from paper titles file
  -p PROXY, --proxy PROXY
                        use proxy to download papers
  --output OUTPUT, -o OUTPUT
                        setting output path
  --doi download paper from dois file
  --bib download papers from bibtex file
  --url download paper from url file
  -e SEARCH_ENGINE, --engine SEARCH_ENGINE
                        set the search engine
  -l LIMIT, --limit LIMIT
                        limit the number of search result

大家如果有更多的想法，可以往我们这个开源项目贡献代码，我也非常希望能够有更多人参与这个项目：

https://github.com/Ckend/scihub-cn

本文仅限参考研究，下载的论文请在24小时内阅读后删除，请勿将此项目用于商业目的。

-------- End --------