求如何修改python程序实现爬取未知页数的文章?

求求大佬帮忙啊

import requests
from lxml import etree


def get_paper_link(ur1):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                             'Chrome/100.0.4896.60 Safari/537.36 Edg/100.0.1185.29'}
    res1 = requests.get(ur1, headers=headers).text
    # print(res1)  # 然后找文章链接,引入解析包,使用lxml,然后使用xpath来查找目标doi

    html_xpath = etree.HTML(res1)
    paper_links = html_xpath.xpath('//h3[@class="t c_font"]/a/@href')  # 找到了文章的链接
    doi_list = []  # 将doi存放到这个定义的列表中
    for link in paper_links:
        paper_link = link
        print(paper_link)
        # print(paper_link)  # 然后请求下面的网址,提取doi
        res2 = requests.get(paper_link, headers=headers).text
        html_xpath2 = etree.HTML(res2)
        try:  # 为没有doi的文章进行错误过滤
            paper_doi = html_xpath2.xpath('//div[@class="
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值