在万维网爬虫中进行翻页爬取的三种常用方案

Alright too

已于 2023-09-22 18:12:03 修改

阅读量4.2k

点赞数 9

文章标签： scrapy

于 2023-05-20 18:06:19 首次发布

本文链接：https://blog.csdn.net/qq_55303268/article/details/130781397

版权

首先在开头说明一下，在此案例所示的网站并不全是专门的案例网站，可能因为时间推移而网页结构产生变化，大家下载的模块也可能因为版本不同而方法不同，根据图文了解爬取逻辑即可。

1.遍历可迭代列表对象

这是一种较为基础的解决方案，简单且兼容性强，不需要费力去分析URL的规律，可以应对某些丧心病狂的前端工程师。基本逻辑是通过遍历存有需要爬取的URL的可迭代对象来循环发起请求，当第一次循环时url是'http://opinion.people.com.cn/GB/223228/index1.html'，第二次循环时则是'http://opinion.people.com.cn/GB/223228/index2.html'，以此类推。首先先定义scrapy中的请求方法，然后创建列表对象，再遍历列表对象，用scrapy中的Request方法(形参url为实参url)对遍历后的临时变量发起请求，yield返回Response对象，所以start_requests方法的返回值是Response，主要代码如下。

    def start_requests(self):
        urls = ['http://opinion.people.com.cn/GB/223228/index1.html',
                'http://opinion.people.com.cn/GB/223228/index2.html',
                'http://opinion.people.com.cn/GB/223228/index3.html']
        for url in urls:
            yield Request(url=url)

通过上面的讲解大家可以发现，虽然这种方案也有诸多优点，但是因为需要手动复制URL，所以当需要爬取的页面成百上千时，使用这种方案显然是不太合适的，下面介绍另一种解决方案，可以解决这种缺点。

2.分析URL进行翻页请求

这是一种新手常用的解决方案，通用性强且很方便，即使面对大量的页面也能游刃有余。在上面的案例中我们可以发现，在案例中的每个URL只有index后面的数字在发生变化，第一页就是index1，第二页则是index2。因此我们可以想到通过for in range的方式取值再通过格式化符号添加进url里，于是在第一次循环中url参数是'http://opinion.people.com.cn/GB/223228/index1.html'，第二次循环中就是'http://opinion.people.com.cn/GB/223228/index2.html'了，以此类推，主要代码如下。

    def start_requests(self):
        for page in range(1,10):
            yield Request(url=f'http://opinion.people.com.cn/GB/223228/index{i}.html')

在这个案例中URL还是比较简单直接好分析的，下面再展示一个案例。在这个案例中我们需要爬取的是一个书籍网站，需要的信息是通过json数据包的形式加载的，来观察一下两页的接口URL，第一页URL是这样的：https://spa1.scrape.center/api/movie/?limit=10&offset=0，第二页则是： https://spa1.scrape.center/api/movie/?limit=10&offset=10，在这个URL中，limit参数表示每个页面展示的书籍数量，而offset表示此资源目录里是从第几本书开始展示，所以第二页的URL是offset=10，而不是offset=2，那么也就不能简单粗暴的用上一个案例的方法进行请求了。这个网站我们可以用两种方式进行请求，第一种方式是给range添加步长，这样我们就可以每间隔指定数字进行取值，代码如下。

    def start_requests(self):
        for page in range(0,20,10):
            yield Request(url=f'https://spa1.scrape.center/api/movie/?limit=10&offset={page}')

或者我们可以通过在格式化符里计算来进行请求，代码如下。

    def start_requests(self):
        for page in range(0,20,10):
            yield Request(url=f'https://spa1.scrape.center/api/movie/?limit=10&offset={page}')

以上几个案例的URL规律都是非常简单的，还有很多丧心病狂非常恶心的URL算法，粗浅看来根本发现不了规律，需要通过苦苦分析网站源代码才能发现发现其中规律。下面再介绍一种翻页请求方案，不用像第一种方案一样手动粘贴，也不用像第二个方案一样分析URL规律，个人觉得是一种两全其美的方案。

3.定位节点元素拼接后发起请求

这是一种较为进阶的解决方案，可以应对大多数爬取项目，可以同时解决以上两种方案的缺点，综合优缺我个人最推荐。通过观察此案例网页：人民网评--观点--人民网我们可以发现，页面滚轮下滑到底部后如图有一个拥有'下一页'文本的按钮，点击这个按钮就可以进入到下一个页面。

通过观察页面的HTML代码，我们可以找到这个文本内容为'下一页'的节点，如下图所示。

我们可以发现，此节点除了下一页的文本内容之外，还有一个href属性，这个属性也正是我们需要的部分URL，所以只需要获取这个节点的属性拼接后就能拿到下一页的URL了。在scrapy中此操作一般写在paser方法的末尾。

href = response.xpath('//div[@class="page_n clearfix"]/a[5]/@href')
url = response.urljoin(href.extract())
yield Request(url=url)

这里最好不要用字符串拼接，最好是用urljoin。并且这里获取1234页的节点遍历后发送请求也是可以的。此方案的主要逻辑就是在解析方法里获取下一页的URL拼接后构造新请求对拼接后的url发起请求，新请求继续调用此解析方法，如此循环直到最后一页(没有下一页节点)。

Alright too

关注

9
点赞
踩
41

收藏

觉得还不错? 一键收藏
3
评论
在万维网爬虫中进行翻页爬取的三种常用方案

首先先定义scrapy中的请求方法，然后创建列表对象，再遍历列表对象，用scrapy中的Request方法(形参url为实参url)对遍历后的临时变量发起请求，yield返回Response对象，所以start_requests方法的返回值是Response，主要代码如下。，在这个URL中，limit参数表示每个页面展示的书籍数量，而offset表示此资源目录里是从第几本书开始展示，所以第二页的URL是offset=10，而不是offset=2，那么也就不能简单粗暴的用上一个案例的方法进行请求了。
复制链接

扫一扫