Bio.Entrez下载PubMed中的文献

最新推荐文章于 2024-05-18 11:13:56 发布

little^raccoon

最新推荐文章于 2024-05-18 11:13:56 发布

阅读量836

点赞数 2

分类专栏： python 生物信息文章标签： entrez pubmed 文献

本文链接：https://blog.csdn.net/weixin_40099163/article/details/109533618

版权

生物信息同时被 2 个专栏收录

32 篇文章 6 订阅

订阅专栏

python

5 篇文章 0 订阅

订阅专栏

有些东西不常用，所以要多做记录

#导入模块
from Bio import Entrez, Medline
import re
#邮箱不是强制性，但NCBI要求出现问题时可以联系到用户。也可以在Entrez.esearch()的参数列表里设置email="aaa@163.com"
Entrez.email = "aaa@163.com"
#搜索关键词，就像在线搜索一样，可以用“AND”和“OR”。以及关键词类别，如[Year], [Organism], [Gene]等。
keyword = 'miR156'
#Entrez.esearch返返回一个采用"handle"的格式数据库标识的列表，这个列表可以用Entrez.read读取。db, term是必选参数
handle = Entrez.esearch(db='pubmed', term=keyword, retmax=10)
#Entrez.read读取数据库列表，返回一个字典 record，该字典包含键"IdList"（表示配备文本查询的ID的列表），“Count”（所有ID的数目）
record = Entrez.read(handle)
pmids = record["IdList"]
#print(pmids)
#Entrez.efetch用上面获得的ID列表或者单个ID作为参数，retmode表示被检索记录格式（text, HTML, XML）。rettype指显示记录的类型，这取决于访问的数据库。PubMed的rettype可以是abstract, citation或medline等。对于UniProt中rettype可以为fasta。retmax是返回的记录总数，上限1w。
handle = Entrez.efetch(db='pubmed', id=pmids, rettype='medline', retmode='text', retmax=10)
#Medline模块用来解析Entrez.efetch下载的记录。Medline.parse函数可以将其转换为一个列表。这个列表包含Bio.Medline.Record对象，就像一个字典。最常用的键是TI（标题，Title）、PMID、PG（页码，pages）、AB（摘要，Abstract）和AT（作者，Authors）
medline_records = Medline.parse(handle)
records = list(medline_records)
n = 1
#AU作者，TI题目，LR日期，TA杂志缩写，JT杂志全称，LID doi号
for record in records:
    authors = ",".join(record["AU"])
    doi = re.sub('^.*\[pii\] ',"",record["LID"])
    doi = re.sub(' \[doi\]$',"",doi)
    link = "https://doi.org/"+doi
    out = [authors, record["TI"], record["LR"], record["TA"], link]
    print("\t".join(out))

###### 可以通过下面查看字典里所有的键 ######
for record in records:
    for k, v in record.items():
        print(k, v)

little^raccoon

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Bio.Entrez下载PubMed中的文献

有些东西不常用，所以要多做记录#导入模块from Bio import Entrez, Medlineimport re#邮箱不是强制性，但NCBI要求出现问题时可以联系到用户。也可以在Entrez.esearch()的参数列表里设置email="aaa@163.com"Entrez.email = "aaa@163.com"#搜索关键词，就像在线搜索一样，可以用“AND”和“OR”。以及关键词类别，如[Year], [Organism], [Gene]等。keyword = 'miR15.
复制链接

扫一扫

专栏目录