在万维网爬虫中进行翻页爬取的三种常用方案

首先在开头说明一下,在此案例所示的网站并不全是专门的案例网站,可能因为时间推移而网页结构产生变化,大家下载的模块也可能因为版本不同而方法不同,根据图文了解爬取逻辑即可。

1.遍历可迭代列表对象

这是一种较为基础的解决方案,简单且兼容性强,不需要费力去分析URL的规律,可以应对某些丧心病狂的前端工程师。基本逻辑是通过遍历存有需要爬取的URL的可迭代对象来循环发起请求,当第一次循环时url是'http://opinion.people.com.cn/GB/223228/index1.html',第二次循环时则是'http://opinion.people.com.cn/GB/223228/index2.html',以此类推。首先先定义scrapy中的请求方法,然后创建列表对象,再遍历列表对象,用scrapy中的Request方法(形参url为实参url)对遍历后的临时变量发起请求,yield返回Response对象,所以start_requests方法的返回值是Response,主要代码如下。

    def start_requests(self):
        urls = ['http://opinion.people.com.cn/GB/223228/index1.html',
                'http://opinion.people.com.cn/GB/223228/index2.html',
                'http://opinion.people.com.cn/GB/223228/index3.html']
        for url in urls:
            yield Request(url=url)

通过上面的讲解大家可以发现,虽然这种方案也有诸多优点,但是因为需要手动复制URL,所以当需要爬取的页面成百上千时,使用这种方案显然是不太合适的,下面介绍另一种解决方案,可以解决这种缺点。

2.分析URL进行翻页请求

这是一种新手常用的解决方案,通用性强且很方便,即使面对大量的页面也能游刃有余。在上面的案例中我们可以发现,在案例中的每个URL只有index后面的数字在发生变化,第一页就是index1,第二页则是index2。因此我们可以想到通过for in range的方式取值再通过格式化符号添加进url里,于是在第一次循环中url参数是'http://opinion.people.com.cn/GB/223228/index1.html',第二次循环中就是'http://opinion.people.com.cn/GB/223228/index2.html'了,以此类推,主要代码如下。

    def start_requests(self):
        for page in range(1,10):
            yield Request(url=f'http://opinion.people.com.cn/GB/223228/index{i}.html')

在这个案例中URL还是比较简单直接好分析的,下面再展示一个案例。在这个案例中我们需要爬取的是一个书籍网站,需要的信息是通过json数据包的形式加载的,来观察一下两页的接口URL,第一页URL是这样的:https://spa1.scrape.center/api/movie/?limit=10&offset=0,第二页则是: https://spa1.scrape.center/api/movie/?limit=10&offset=10,在这个URL中,limit参数表示每个页面展示的书籍数量,而offset表示此资源目录里是从第几本书开始展示,所以第二页的URL是offset=10,而不是offset=2,那么也就不能简单粗暴的用上一个案例的方法进行请求了。这个网站我们可以用两种方式进行请求,第一种方式是给range添加步长,这样我们就可以每间隔指定数字进行取值,代码如下。

    def start_requests(self):
        for page in range(0,20,10):
            yield Request(url=f'https://spa1.scrape.center/api/movie/?limit=10&offset={page}')

或者我们可以通过在格式化符里计算来进行请求,代码如下。

    def start_requests(self):
        for page in range(0,20,10):
            yield Request(url=f'https://spa1.scrape.center/api/movie/?limit=10&offset={page}')

以上几个案例的URL规律都是非常简单的,还有很多丧心病狂非常恶心的URL算法,粗浅看来根本发现不了规律,需要通过苦苦分析网站源代码才能发现发现其中规律。下面再介绍一种翻页请求方案,不用像第一种方案一样手动粘贴,也不用像第二个方案一样分析URL规律,个人觉得是一种两全其美的方案。

3.定位节点元素拼接后发起请求

这是一种较为进阶的解决方案,可以应对大多数爬取项目,可以同时解决以上两种方案的缺点,综合优缺我个人最推荐。通过观察此案例网页:人民网评--观点--人民网我们可以发现,页面滚轮下滑到底部后如图有一个拥有'下一页'文本的按钮,点击这个按钮就可以进入到下一个页面。7099739fab734db4966e98ed04e9b99a.png

通过观察页面的HTML代码,我们可以找到这个文本内容为'下一页'的节点,如下图所示。ea6dcd8d091e4803a31b728bec17a37c.png

 

 我们可以发现,此节点除了下一页的文本内容之外,还有一个href属性,这个属性也正是我们需要的部分URL,所以只需要获取这个节点的属性拼接后就能拿到下一页的URL了。在scrapy中此操作一般写在paser方法的末尾。

href = response.xpath('//div[@class="page_n clearfix"]/a[5]/@href')
url = response.urljoin(href.extract())
yield Request(url=url)

这里最好不要用字符串拼接,最好是用urljoin。并且这里获取1234页的节点遍历后发送请求也是可以的。此方案的主要逻辑就是在解析方法里获取下一页的URL拼接后构造新请求对拼接后的url发起请求,新请求继续调用此解析方法,如此循环直到最后一页(没有下一页节点)。

 

  • 9
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值