Python如何爬取不确定页数的网页

详细版本见个人博客:Python如何爬取不确定页数的网页


一、问题分析

我们通常遇到的网站页数展现形式有这么几种:

  • 第一种是直观地显示所有页数,显示在页面上。
  • 第二种是不直观显示网页总页数,需要抓包才可以看到,一般来说会有一个totalPage参数。
  • 第三种是不知道具体有多少页的网页。

对于,前两种形式的网页,爬取方法非常简单,使用 For 循环从首页爬到尾页就行了,第三种形式则不适用,因为不知道尾页的页数,所以循环到哪一页结束无法判断。

二、解决方案

这里有两种解决方式:

  • 第一种方式:使用 For 循环,尾页的页数设置一个较大的参数,足够循环爬完所有页面。
  • 第二种方法:使用 While 循环,可以结合 break 语句,也可以设起始循环判断条件为 True,从头开始循环爬取直到爬完最后一页,然后更改判断条件为 False 跳出循环,结束爬取。

三、实际案例——scrapy实现

1、For循环实现

Scrapy 中使用 For 循环递归爬取的思路非常简单,即先批量生成所有请求的 URL,包括最后无效的 URL,后续在 parse 方法中添加 if 判断过滤无效请求。

由于 Scrapy 依赖于Twisted框架,采用的是异步请求处理方式,可以边发送请求边解析内容,不会被阻塞,但是这种方法会发送很多无用请求。

def start_requests(self):
    url_lists = []
    for i in range(0,500):
        req = scrapy.Request(self.url.format(url_tags = self.tags[0],url_start = 20
  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值