求如何修改python程序实现爬取未知页数的文章？

最新推荐文章于 2024-05-19 23:31:32 发布

VIP文章 A_GongXi

最新推荐文章于 2024-05-19 23:31:32 发布

阅读量1.2k

点赞数

文章标签： python 大数据

本文链接：https://blog.csdn.net/A_GongXi/article/details/124081160

版权

求求大佬帮忙啊

import requests
from lxml import etree


def get_paper_link(ur1):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                             'Chrome/100.0.4896.60 Safari/537.36 Edg/100.0.1185.29'}
    res1 = requests.get(ur1, headers=headers).text
    # print(res1)  # 然后找文章链接，引入解析包，使用lxml,然后使用xpath来查找目标doi

    html_xpath = etree.HTML(res1)
    paper_links = html_xpath.xpath('//h3[@class="t c_font"]/a/@href')  # 找到了文章的链接
    doi_list = []  # 将doi存放到这个定义的列表中
    for link in paper_links:
        paper_link = link
        print(paper_link)
        # print(paper_link)  # 然后请求下面的网址，提取doi
        res2 = requests.get(paper_link, headers=headers).text
        html_xpath2 = etree.HTML(res2)
        try:  # 为没有doi的文章进行错误过滤
            paper_doi = html_xpath2.xpath('//div[@class="

最低0.47元/天解锁文章

优惠劵

A_GongXi

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
求如何修改python程序实现爬取未知页数的文章？

求求大佬帮忙啊import requestsfrom lxml import etreedef get_paper_link(ur1): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/100.0.4896.60 Safari/537.36 Ed
复制链接

扫一扫