【Scrapy】CrawlSpider 单页面Ajax爬取

最新推荐文章于 2023-06-27 09:28:42 发布

淡之梦

最新推荐文章于 2023-06-27 09:28:42 发布

阅读量1k

点赞数

分类专栏： Scrapy 文章标签： python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37323771/article/details/83989755

版权

本文介绍了如何使用Scrapy的CrawlSpider来爬取拉勾网的Ajax异步加载的职位列表及其详细信息。项目目标是获取职位列表的基本信息和工作描述。通过重写start_request()、parse_start_url()方法，以及创建detail_parse()方法来解析职位描述，并通过response.meta传递数据，避免因数据不同步导致的数据库插入错误。完整代码可在github上查看。

摘要由CSDN通过智能技术生成

项目目标

爬取拉勾网职位列表基本信息+职位描述

项目思考

拉勾网的招聘岗位列表，这是Ajax异步加载的。

我想把岗位列表所显示的信息爬取下来，同时还需要岗位的工作详情。

爬取流程就是一开始就不断获取职位列表的json，然后从json中提取对应的职位详情页，再进去爬取其职位描述。

使用Scrapy的scrapy.Spider基础爬虫模板很简单就可以实现，直接重载编写parse方法，再加上个回调方法就可以。

但如何使用CrawlSpider做到类似的功能？

对于获取json的网址，rules规则没什么用，而CrawlSpider中的parse是不能被重载的。

第一步，重写start_request():

crawlspider继承基类是spider，所以它的开始入口也是start_request(),然后默认回调parse。注意回调parse这个不能改。
第二步，重写parse_start_url()

start_request()->parse()->_parse_response()->parse_start_url()

如果设置了callback就会调用parse_start_url()方法，rules中的回调。

因为rules在本次项目中没有作用，所以我们需要重载parse_start_url()作为我们的回调方法。

在parse_start_url()中，需要获取职位的详情页，发起request，设置回调方法。
不断发起下一页的职位列表请求。
第三步，编写解析职位描述的detail_parse()

注意的时，这里最后在parse_start_url()中使用response.meta传递item到detail_parse()来进行数据保存。

因为如果在parse_start_url()就把职位列表的信息保存下来的话，因为Scrapy程序调度的关系，在插入数据库的时候，item中的数据不一定同步，插入数据库会报一些错。
注意request要带上有cookie的header，不然会被重定向到login页面

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。