python 批量下载pubmed文献 (详细教程)使用noteexpress

首先是NOTEEXPRESS操作

1.pubmed上下载好题录,导入NE。如下图所示,有2篇文献。

2.点击【预览】,可以看到我们【导出题录】时候保持的样式


3.打开【样式管理器】如下:


4. 选择【安装新的样式输出】,打开已经修改好的 年份-标题-doi【python】.nes

下载地址:链接:https://pan.baidu.com/s/1t5FH2TULPo28nKuDu_JDRg?pwd=agzy 
提取码:agzy 

 

 5.看到下面的菜单栏,点击【样式】右边的三角形——【更多输出样式】

 

 6.选择【自定义】,找到刚才的样式,然后确定

 

 7.然后选中需要的题录,导出txt

 

 在【使用样式】这里,同上操作,找到刚才设置好的样式

点击【开始导出】

桌面生成doi.txt 如下

 


 接着是python操作

python代码:

import requests
from bs4 import BeautifulSoup
import os

# 题录格式如下:2020-Recurrent pregnancy loss-doi:10.1038/s41572-020-00228-z
DOI = []
f = open("C:/Users/docto/Desktop/doi.txt", "r", encoding="utf-8") #根据个人情况修改
for line in f.readlines():
    line = line[:-1]  #去掉换行符
    DOI.append(line)
#DOI = DOI[1:]  #如果第一行是空格,则从第二行开始
#print(DOI)

path = "C:/Users/docto/Desktop/sci_hub文献下载_doi1"   #输出文件夹所在地 #根据个人情况修改
if os.path.exists(path) == False:    #如果没有这个文件夹,那就创建一个
	os.mkdir(path)

head = {\
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'\
        }

i = 0
for doi in DOI:
    i = i + 1
    print("\n" + "[" + str(i) + "]")
    doi = doi.split("-doi:")  #将这一行字段分成两部分 doi[1],和doi[2]  "-doi"会消失在字段里
    url = "https://www.sci-hub.ren/" + doi[1]
    #print("  trying:  "+url)
    filename = path +"/"+ doi[0] + ".pdf"
    if os.path.exists(filename) == False: #判断是否存在这个文件了
        try:
            r = requests.get(url, headers = head)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            soup = BeautifulSoup(r.text, "html.parser")
            download_url = soup.iframe.attrs["src"]
            print("  Downloading:" + doi[0])
            download_r = requests.get(download_url, headers = head)
            download_r.raise_for_status()
            f = open(path +"/"+ doi[0] + ".pdf", "wb")
            f.write(download_r.content)
            print(" √" )
        except:    #跳过出错
            print("  XXX Cannot download:  " + doi[1] + "\n  " + doi[0] + "\n  " + url)
    else:
        print("  Pdf already exists: " + doi[0])

这个代码有查重复功能,如果下载失败了,直接重新运行即可,不会重复下载已有文献

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值