如何用python爬取参考文献的doi

聂小七f

于 2022-07-14 13:39:17 发布

阅读量2.4k

点赞数 1

文章标签：大数据爬虫 python

本文链接：https://blog.csdn.net/qq_35823062/article/details/125782272

版权

本文介绍如何使用Python高效获取文章参考文献的DOI，以Nature Communications文章为例，3分钟教程教你快速操作，同时提醒读者要遵守网络秩序，仅限学术使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阅读文章时每当看到一篇优秀的参考文献总会把持不住自己去往文章后面翻，然后找到它的名字，再去找数据库搜索并下载，如此一番，至少3分钟过去了......再回过头来继续读原来的文章，卧槽，读到哪了？！于是，慌张的小手拿起了手机，打开了抖音，嗯这是啥？我竟然没吃过！

今天课题组一位同学问我能不能直接找到这篇文章中的参考文章并下载下来，我尝试了一下，3分钟教你秒杀所有。

我以Nature Communications的一篇文章为例，Responses of plant diversity to precipitation change are strongest at local spatial scales and in drylands。本文仅供参考，出了任何问题概不负责。

希望大家仅作为学术使用，不要过度爬取，遵守网络秩序。

import requests
from lxml import etree
url = "文章的url"
resp = requests.get(url)
tree = etree.HTML(resp.text)
divs = tree.xpath('//*[@id="Bib1-content"]/div/ol/li')
for div in divs:
    ref = div.xpath("./p[2]/a[1]/@href")
    print(ref)
#上面这些可以得到文章的网站链接（图一），可以直