新手爬取51job，智联，boss网站职位信息总结和代码（小杜总结）

最新推荐文章于 2023-10-19 11:34:51 发布

du1314

最新推荐文章于 2023-10-19 11:34:51 发布

阅读量1.6k

点赞数

文章标签：爬虫网站职位智联新手

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/small_dudu/article/details/93461522

版权

本文总结了新手如何爬取51job、智联招聘和BOSS直聘的职位信息，包括数据保存、爬取时间记录、增量爬取和去重机制。重点介绍了每个网站的爬取策略，如51job无限制，BOSS直聘需设置IP，智联需获取数据接口。文章还提供了详细的解析步骤、爬取思路和代码框架，并分享了相关代码链接。

摘要由CSDN通过智能技术生成

爬取要求：
（1）使用合适的数据保存手段保存爬取数据
（2）记每条数据的爬取时间
（3）实现数据的增量爬取
（4）实现同时基于关键字和页面 URL 的去重元数据说明：

一统一注意事项或建议
1 写代码时认真一些，不要因为个别的单词空格错误，过多浪费时间
2 写一步做一步,每解析一步，输出来验证一下
（因为代码量小的话，好检查一下，代码量大的话，不是不能解决，只是会太多的浪费时间）
3 网页爬取，空值没有strip(),需要大家注意一下
爬取项目网站有51job，智联招聘，boss直聘（反向思维）
1 网站要求
51job：爬取没有限制
boss直聘：需要设置IP，重点设置动态IP
智联：动态抓取，重点获取数据接口
2 爬取重点要求
翻页，详情页，算法检索，网页去重
3 前提：浏览网页
4 爬取思路（反向思维）
1）爬取内容要求（详情页def detail_parse(self),方法主要用item）
脑图画代码呈现

解析职位名称

item[‘hiring_name’] = response.xpath（此处自己解析).extract_first()

解析职位信息

it

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
新手爬取51job，智联，boss网站职位信息总结和代码（小杜总结）

爬取要求：（1）使用合适的数据保存手段保存爬取数据（2）记每条数据的爬取时间（3）实现数据的增量爬取（4）实现同时基于关键字和页面 URL 的去重元数据说明：一统一注意事项或建议1 写代码时认真一些，不要因为个别的单词空格错误，过多浪费时间2 写一步做一步,每解析一步，输出来验证一下（因为代码量小的话，好检查一下，代码量大的话，不是不能解决，只是会太多的浪费时间）...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。