Biopython是python的一个库,这个库可以解决很多生物上的问题,使大量的生物数据简单化,是个很好用的包。
对于数据库上的各种信息,有专门的函数处理,不用按照常规的文本处理方法,写大量的代码。比如很常见的报告中展示的参考文献,一般思路是有了文章的PMID,然后通过爬虫的方法,获取这些文章的title,author,source等信息。
在Biopython中有自己独特的解决方法。在NCBI中,搜索与epilepsy有关的文章,并输出相关信息。
from Bio import Entrez
Entrez.email = 'xxxxxxxxxxx@qq.com' # always tell who you are
handle = Entrez.egquery(term="epilepsy")
record = Entrez.read(handle)
for row in record["eGQueryResult"]:
if row["DbName"]=="pubmed":
print row["Count"] #total is 143833
可以看到在PubMed数据库中有epilepsy有关的文章有143833,所以取前40个看下输出的信息是什么。
handle = Entrez.esearch(db=&