作者:xiaolanlin
一个不是学生物的孩子来搞生物,当真是变成了一块废铁啊,但也是让我体会到了一把生物信息的力量。
废话不多说,开整!
任务:快速高效从pubmed上下载满足条件的文献pmid、标题(ti)、摘要(ab)。
pubmed官网
此处有几种选择可以达到目的:
(1)官网上匹配筛选条件(注:匹配快速,但是下载下来的数量受到限制,每次只能下载10000条数据,甚至更少。)
可以看到,我需要的数据是有三十多万条,但是每次只能下载10000条,那我岂不是要手动n次。。很明显,在大批量下载文献的情况下,官网不是很友好。
由于我不喜欢用r写代码,所以我写一半还是换了python,熟练r的小伙伴可以自行根据指南走通需求。
(3)重量级库来了,python自带的bio包中的entrez检索库,简直就是我的救星,以下是我的代码:
import numpy as np
from bio import medline, entrez # 一般是通过biopython的bio.entrez模块访问entrez
from collections import counter
entrez.email = "(此处写你自己在官网注册的邮箱账号)" # 应用自己的账号访问ncbi数据库
# 此处需将服务器协议指定为1.0,否则会出现报错。http.client.incompleteread: incompleteread(0 byt