利用Biopython 快速根据pmid 来下载参考文献信息

最新推荐文章于 2024-07-18 09:51:56 发布

爱笑的小牙

最新推荐文章于 2024-07-18 09:51:56 发布

阅读量1.8k

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/cassiel60/article/details/106635460

版权

本文介绍了一种使用Biopython代替传统爬虫方法，快速下载和获取文章标题、作者及来源信息的方法，提供了一种简洁且稳定的解决方案。

摘要由CSDN通过智能技术生成

之前用的常规爬虫思路（import requests，from bs4 import BeautifulSoup）来下载文章题目，作者，来源等信息时，偶尔会出现各种问题，有那个调试的时间，就自己根据biopython快速写了一个脚本，简单好用。

# !bin/python
# encoding:utf-8

from Bio import Entrez
from  Bio  import Medline
Entrez.email = 'xxxx@qq.com'
ref = open('ref.txt','w+')
def downref(pmid):
    handle = Entrez.efetch(db="pubmed" , id=pmid , rettype="medline" , retmode="text")
    records = Medline.parse(handle)
    records = list(records) # records 是一个迭代器，所以只能访问这些records一次。如果想保存这些records，需要把他们转成列表。

    for record in records:
        print "title:" , record.get("TI" , "?")
        if len(record.get("AU" , "?"))>3: 
            author = ','.join(record.get("AU" , "?")[0:3]) #如果名字很多时，作者名字取前三个
            print