python爬取岗位数据并分析_带你了解数据分析岗位需求：用Python分析拉勾网招聘信息...

最新推荐文章于 2020-12-04 11:34:27 发布

weixin_39667398

最新推荐文章于 2020-12-04 11:34:27 发布

阅读量335

点赞数

文章标签： python爬取岗位数据并分析

近年来，伴随着移动互联网及大数据的快速发展，企业对数据的价值越来越重视。数据分析师也因此成为了一个比较热门的职位。为了掌握数据分析相关岗位的招聘需求、薪资待遇、技能要求等方面的信息，本文对拉勾网上数据分析岗位的招聘信息进行了收集、处理和分析，整体的思路如下：

数据收集

使用Python进行数据的收集，本文爬取了拉勾网2019年4月份关于数据分析岗位的2148条招聘信息，并保存为CSV格式文件及MySQL数据库中。具体的代码这里就不展示了，所用到的python库如下：

收集的数据分为两部分：招聘职位的基本数据和详细数据(包含岗位职责、工作要求等)

基本数据保存为CSV文件，同时在数据库中备份。

详细信息保存在数据库中，通过position_id与基本数据表联结，可进行关联查询。

数据处理

爬取得到的数据中有一部分不能满足分析的需求，接下来对数据进行清洗与处理：

1.重复数据与缺失数据

原数据中存在重复数据，可以通过pandas的drop_duplicates函数去掉重复项。

import pandas as pdp = pd.read_csv("lagou.csv")p = p.drop_duplicates(inplace=False)

经过处理，去除掉了24条重复数据。数据的完整性较好，暂无缺失值需要处理。

2. 整理岗位名称

原数据中岗位名称比较杂乱，不同的企业使用的划分标准不一样。现将岗位名称进行统一归类，按照专业能力划分为数据分析师、高级数据分析师、资深数据分析师、数据分析专家4个类别，方便进行统计。

position = []for name in p["position_name"]: if ("总监" or "专家") in name : name = "数据分析专家" elif ("资深" or "经理") in name : name = "资深数据分析师" elif "高级" in name : name = "高级数据分析师" else: name = "数据分析师" position.append(name)p["position_name"] = position

3. 调整薪资数据格式

薪资水平的数据是字符串类型，并且是区间形式的，无法进行计算。现将薪资一列数据更改为薪资上限和下限两列，并以数值类型保存。

low_salary = []up_salary = []for i in p["salary"]: i = i.split("-") low_salary.append(i[0].replace("k

weixin_39667398

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取岗位数据并分析_带你了解数据分析岗位需求：用Python分析拉勾网招聘信息...

近年来，伴随着移动互联网及大数据的快速发展，企业对数据的价值越来越重视。数据分析师也因此成为了一个比较热门的职位。为了掌握数据分析相关岗位的招聘需求、薪资待遇、技能要求等方面的信息，本文对拉勾网上数据分析岗位的招聘信息进行了收集、处理和分析，整体的思路如下：数据收集使用Python进行数据的收集，本文爬取了拉勾网2019年4月份关于数据分析岗位的2148条招聘信息，并保存为CSV格式文件及MySQ...
复制链接

扫一扫