python爬取招聘网站源码及数据分析_如何用爬虫抓取招聘网站的职位并分析

最近有不少程序员又开始找工作了,为了了解目前技术类各职位的数量、薪资、招聘公司、岗位职责及要求,我爬取了拉勾网北上广深4个城市的招聘数据,共3w条。职位包括:人工智能(AI)、大数据、数据分析、后端(Java、C|C++、PHP、Python)、前端、Android、iOS、嵌入式和测试。下面我将分两部分进行介绍,第一部分是数据抓取;第二部分是数据分析。如需源代码在公众号(见文末)回复关键字 职位 即可。如遇到图片打不开的问题,可访问:https://juejin.im/post/5e83edfbf265da47d537ba74

数据抓取

这里我并不是通过传统的抓网页,解析HTML代码的方式爬取数据,而是用 Charles 软件抓取拉钩APP请求数据的接口实现。

大概的流程是启动Charles -> 手机连接Charles代理(二者需处于同一个局域网)-> 打开APP请求数据->观察Charles截的包,从中找到我们想要的接口

首先,找到搜索职位的接口

/v1/entry/positionsearch/searchPosition

这是一个 POST 请求,我们还要找到请求的 header 和 body,最关键的 header 和 body 如下

header:

'X-L-REQ-HEADER': '{"deviceType":150,"userType":0,"lgId":"11835BCC-8815-456A-A094-64FB2B9323EF_1585362240","reqVersion":73600,"appVersion":"7.36.0","userToken":"xxx"}'

'content-type': "application/json"

其中,userToken字段每个不一样,需要自己抓包确定

body

{"tagType": "", "isAd": "1", "showId": "", "district": "", "keywordSource": 0, "keyword": "数据开发

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是非常流行的数据分析爬虫工具。借助Python爬取招聘网站源码数据分析是一项非常常见的任务。Python有许多第三方库和工具可供使用,使得编写Web爬虫抓取网页数据变得容易。 要开始爬取招聘网站,首先要选择一个目标网站并了解其结构和内容。一旦你确定了要爬取网站,你可以使用Python中的Requests和BeautifulSoup库来下载并分析网页源码。BeautifulSoup是一个Python库,可以从HTML和XML文档中提取数据。使用BeautifulSoup可以轻松地分析HTML页面并提取所需的信息。Python的Requests库使得从网站抓取数据非常容易。使用Requests库,您可以轻松地下载HTML页面以及其他网站资源,例如图像。 当你获得了网站的源代码并从中提取所需的数据,你可以使用Pandas数据分析库来对这些数据进行分析和操作。Pandas可以轻松地从各种数据源中读取和处理数据,而且是Python数据科学领域中最流行的库之一。您可以使用Pandas来对数据进行切片,切块,过滤和排序,还可以使用广泛的数据建模和分析工具进行进一步的探索。 总的来说,使用Python招聘网站进行数据爬取分析是一项非常有趣和有用的任务。Python的第三方库和工具提供了强大且易于使用的方法来从HTML源代码中提取所需的数据,并使用Pandas进行分析和建模,使得这项任务变得更加容易和有用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值