python爬虫：爬取拉勾网职位并分析

美好前端开发者

已于 2024-04-12 02:02:07 修改

阅读量1k

点赞数 8

分类专栏： 2024年程序员学习文章标签： python 爬虫开发语言

于 2024-04-12 02:02:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61549674/article/details/137659786

版权

print(df.describe())

由于CSV文件内的数据是字符串形式,先用正则表达式将字符串转化为列表,再取区间的均值

pattern = ‘\d+’

df[‘工作年限’] = df[‘工作经验’].str.findall(pattern)

avg_work_year = []

for i in df[‘工作年限’]:

如果工作经验为’不限’或’应届毕业生’,那么匹配值为空,工作年限为0

if len(i) == 0:

avg_work_year.append(0)

如果匹配值为一个数值,那么返回该数值

elif len(i) == 1:

avg_work_year.append(int(‘’.join(i)))

如果匹配值为一个区间,那么取平均值

else:

num_list = [int(j) for j in i]

avg_year = sum(num_list)/2

avg_work_year.append(avg_year)

df[‘经验’] = avg_work_year

将字符串转化为列表,再取区间的前25%，比较贴近现实

df[‘salary’] = df[‘工资’].str.findall(pattern)

avg_salary = []

for k in df[‘salary’]:

int_list = [int(n) for n in k]

avg_wage = int_list[0]+(int_list[1]-int_list[0])/4

avg_salary.append(avg_wage)

df[‘月工资’] = avg_salary

将清洗后的数据保存,以便检查

df.to_csv(‘draft.csv’, index = False)

4. 词云

我们将职位福利这一列的数据汇总，生成一个字符串，按照词频生成词云实现python可视化。以下是原图和词云的对比图，可见五险一金在职位福利里出现的频率最高，平台、福利、发展空间、弹性工作次之。

在这里插入图片描述

5. 描述统计

在这里插入图片描述

可知，数据分析师的均值在14.6K，中位数在12.5K，算是较有前途的职业。数据分析散布在各个行业，但在高级层面上涉及到数据挖掘和机器学习，在IT业有长足的发展。

我们再来看工资的分布，这对于求职来讲是重要的参考：

在这里插入图片描述

工资在10-15K的职位最多，在15-20K的职位其次。个人愚见，10-15K的职位以建模为主，20K以上的职位以数据挖掘、大数据架构为主。

我们再来看职位在各区的分布：

在这里插入图片描述

数据分析职位有62.9%在南

最低0.47元/天解锁文章

美好前端开发者

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
python爬虫：爬取拉勾网职位并分析

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。