python info()怎么看_Python爬虫——爬取Python岗位的那些事

最新推荐文章于 2020-12-01 16:18:15 发布

weixin_39684995

最新推荐文章于 2020-12-01 16:18:15 发布

阅读量183

点赞数

文章标签： python info()怎么看 python爬取岗位数据并分析

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云作者：py3study

本文目标

获取 Ajax 请求,解析 JSON 中所需字段
数据保存到 Excel 中
数据保存到 MySQL, 方便分析

简单分析

五个城市 Python 岗位平均薪资水平

Python 岗位要求学历分布

Python 行业领域分布

Python 公司规模分布

查看页面结构

我们输入查询条件以 Python 为例，其他条件默认不选，点击查询，就能看到所有 Python 的岗位了，然后我们打开控制台，点击网络标签可以看到如下请求：

从响应结果来看，这个请求正是我们需要的内容。后面我们直接请求这个地址就好了。从图中可以看出 result 下面就是各个岗位信息。

到这里我们知道了从哪里请求数据，从哪里获取结果。但是 result 列表中只有第一页 15 条数据，其他页面数据怎么获取呢？

分析请求参数

我们点击参数选项卡，如下：

发现提交了三个表单数据，很明显看出来 kd 就是我们搜索的关键词，pn 就是当前页码。first 默认就行了，不用管它。剩下的事情就是构造请求，来下载 30 个页面的数据了。

构造请求，并解析数据

构造请求很简单，我们还是用 requests 库来搞定。首先我们构造出表单数据 data = {‘first’: ‘true’, ‘pn’: page, ‘kd’: lang_name} 之后用 requests 来请求url地址，解析得到的 Json 数据就算大功告成了。由于拉勾对爬虫限制比较严格，我们需要把浏览器中 headers 字段全部加上，而且把爬虫间隔调大一点，我后面设置的为 10-20s，然后就能正常获取数据了。

import

获取所有数据

了解了如何解析数据，剩下的就是连续请求所有页面了，我们构造一个函数来请求所有 30 页的数据。

def

完整代码

import

weixin_39684995

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python info()怎么看_Python爬虫——爬取Python岗位的那些事

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者：py3study本文目标获取 Ajax 请求,解析 JSON 中所需字段数据保存到 Excel 中数据保存到 MySQL, 方便分析简单分析五个城市 Python 岗位平均薪资水平Python 岗位要求学历分布Python 行业领域分布Python 公司规...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。