python采集利用网页源码判断是否有下一页,如有则继续采集下一页内容

不完整代码

def page_next(url):
    age = header(url)
    ponse = etree.HTML(age)
    page = ponse.xpath('//div[@class="ewb-page"]//li[contains(@class,"ewb-page-hover")][2]/a/@href')#下一页的标签链接(只有一半,需要和域名拼接)
    # print(page)
    if page:#判断
        # url = domain +page[0]
        # print(url)
        next_url = parse.urljoin(domain, page[0])#如果下一页无主域名则进行拼接(parse.urljoin),需引用from urllib import parse库,domain赋值的域名
        print(next_url)#打印下一页链接
        the_parse(next_url)#再次执行解析函数
        page_next(next_url)#循环


if __name__ == "__main__":
    url = "http://www.sxggzyjy.cn/jydt/001001/001001001/001001001005/subPage_jyxx.html"
    the_parse(url)#先执行解析代码函数,第一页数据获取后
    page_next(url)#在执行判断下一页函数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值