Bio.Entrez下载PubMed中的文献

有些东西不常用,所以要多做记录

#导入模块
from Bio import Entrez, Medline
import re
#邮箱不是强制性,但NCBI要求出现问题时可以联系到用户。也可以在Entrez.esearch()的参数列表里设置email="aaa@163.com"
Entrez.email = "aaa@163.com"
#搜索关键词,就像在线搜索一样,可以用“AND”和“OR”。以及关键词类别,如[Year], [Organism], [Gene]等。
keyword = 'miR156'
#Entrez.esearch返返回一个采用"handle"的格式数据库标识的列表,这个列表可以用Entrez.read读取。db, term是必选参数
handle = Entrez.esearch(db='pubmed', term=keyword, retmax=10)
#Entrez.read读取数据库列表,返回一个字典 record,该字典包含键"IdList"(表示配备文本查询的ID的列表),“Count”(所有ID的数目)
record = Entrez.read(handle)
pmids = record["IdList"]
#print(pmids)
#Entrez.efetch用上面获得的ID列表或者单个ID作为参数,retmode表示被检索记录格式(text, HTML, XML)。rettype指显示记录的类型,这取决于访问的数据库。PubMed的rettype可以是abstract, citation或medline等。对于UniProt中rettype可以为fasta。retmax是返回的记录总数,上限1w。
handle = Entrez.efetch(db='pubmed', id=pmids, rettype='medline', retmode='text', retmax=10)
#Medline模块用来解析Entrez.efetch下载的记录。Medline.parse函数可以将其转换为一个列表。这个列表包含Bio.Medline.Record对象,就像一个字典。最常用的键是TI(标题,Title)、PMID、PG(页码,pages)、AB(摘要,Abstract)和AT(作者,Authors)
medline_records = Medline.parse(handle)
records = list(medline_records)
n = 1
#AU作者,TI题目,LR日期,TA杂志缩写,JT杂志全称,LID doi号
for record in records:
    authors = ",".join(record["AU"])
    doi = re.sub('^.*\[pii\] ',"",record["LID"])
    doi = re.sub(' \[doi\]$',"",doi)
    link = "https://doi.org/"+doi
    out = [authors, record["TI"], record["LR"], record["TA"], link]
    print("\t".join(out))

###### 可以通过下面查看字典里所有的键 ######
for record in records:
    for k, v in record.items():
        print(k, v)
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值