scrapy框架介绍（三、scrapy发送翻页请求）

最新推荐文章于 2023-07-24 01:22:07 发布

Dannys彬彬

最新推荐文章于 2023-07-24 01:22:07 发布

阅读量442

点赞数

分类专栏： python爬虫 Scrapy 文章标签： python

本文链接：https://blog.csdn.net/binbin327805084/article/details/107185632

版权

scrapy发送翻页请求

1. 翻页请求的思路

对于要提取如下图中所有页面上的数据该怎么办？
在这里插入图片描述
回顾requests模块是如何实现翻页请求的：

找到下一页的URL地址
调用requests.get(url)

scrapy实现翻页的思路：

找到下一页的url地址
构造url地址的请求，传递给引擎

2 scrapy实现翻页请求

2.1 实现方法

确定url地址
构造请求，scrapy.Request(url,callback)
- callback：指定解析函数名称，表示该请求返回的响应使用哪一个函数进行解析
把请求交给引擎：yield scrapy.Request(url,callback)

2.2 腾讯招聘爬虫

通过爬取腾讯招聘的页面的招聘信息,学习如何实现翻页请求
地址：http://hr.tencent.com/position.php

思路分析：

获取首页的数据
寻找下一页的地址，进行翻页，获取数据

注意：

可以在settings中设置ROBOTS协议

# False表示忽略网站的robots.txt协议，默认为True
ROBOTSTXT_OBEY = False

可以在settings中设置User-Agent：

# scrapy发送的每一个请求的默认UA都是设置的这个User-Agent
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

2.3 代码实现

在爬虫文件的parse方法中：

# 提取下一页的href并拼接url
    next_url = 'https://hr.tencent.com/' + response.xpath('//a[text()="下一页"]/@href').extract_first()
    # 判断是否是最后一页

最低0.47元/天解锁文章

Dannys彬彬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架介绍（三、scrapy发送翻页请求）

目录scrapy发送翻页请求1. 翻页请求的思路2 scrapy实现翻页请求2.1 实现方法2.2 腾讯招聘爬虫2.3 代码实现2.4 scrapy.Request的更多参数3 meta参数的使用4. item的使用4.1 Item能够做什么4.2 定义Item4.3 使用Itemscrapy发送翻页请求1. 翻页请求的思路对于要提取如下图中所有页面上的数据该怎么办？回顾requests模块是如何实现翻页请求的：找到下一页的URL地址调用requests.get(url)scrapy实
复制链接

扫一扫

专栏目录