python批量检索文献pubmed_Python 利用Entrez库筛选下载PubMed文献摘要的示例

本文介绍了使用Python的Bio.Entrez库批量检索并下载PubMed文献的PMID、标题和摘要,详细阐述了筛选条件和代码实现过程,适用于大量文献数据的获取。
摘要由CSDN通过智能技术生成

作者:xiaolanlin

一个不是学生物的孩子来搞生物,当真是变成了一块废铁啊,但也是让我体会到了一把生物信息的力量。

废话不多说,开整!

任务:快速高效从pubmed上下载满足条件的文献pmid、标题(ti)、摘要(ab)。

pubmed官网

此处有几种选择可以达到目的:

(1)官网上匹配筛选条件(注:匹配快速,但是下载下来的数量受到限制,每次只能下载10000条数据,甚至更少。)

可以看到,我需要的数据是有三十多万条,但是每次只能下载10000条,那我岂不是要手动n次。。很明显,在大批量下载文献的情况下,官网不是很友好。

由于我不喜欢用r写代码,所以我写一半还是换了python,熟练r的小伙伴可以自行根据指南走通需求。

(3)重量级库来了,python自带的bio包中的entrez检索库,简直就是我的救星,以下是我的代码:

import numpy as np

from bio import medline, entrez # 一般是通过biopython的bio.entrez模块访问entrez

from collections import counter

entrez.email = "(此处写你自己在官网注册的邮箱账号)" # 应用自己的账号访问ncbi数据库

# 此处需将服务器协议指定为1.0,否则会出现报错。http.client.incompleteread: incompleteread(0 byt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值