python爬取岗位数据并分析_前程无忧python岗位信息爬取和分析

最新推荐文章于 2020-12-15 16:58:25 发布

weixin_39942726

最新推荐文章于 2020-12-15 16:58:25 发布

阅读量296

点赞数

文章标签： python爬取岗位数据并分析

项目简介

爬取12月14日所有前程无忧中的python岗位信息, 共33751条数据
分析python岗位的以下情况:

各个城市的岗位数量分布
不同学历要求下的岗位数量分布
工作经验年限与工资的关系
城市与工资的关系
岗位要求的技能关键词的词频

项目地址: https://github.com/397460848/51job-spider-and-data-analysis
觉得有用的帮我点个赞, github点个星

项目内容

各城市的岗位数量分布

2. 不同学历要求下的岗位数量分布

有一些岗位没有学历要求, 所以只有28000多条数据

3. 工作经验年限与工资的关系

所有的单位全部换算成了(元/月)
岗位的工资一般都是一个区间, 在该次分析中都是使用工资区间的下限*1.2来计算的, 我认为这样可以较为准确的反应出岗位的实际工资
使用箱型图可以比较好的忽略异常值, 反应出大体的工资情况

4. 城市与工资的关系

为了方便展示, 只统计了岗位最多的8个城市

5. 岗位要求的技能关键词的词云

- 词频统计如下, 大家可以观察一下哪些技能关键词是python岗位被提及较多的

使用的库

爬虫部分:

requests: 用于请求url
redis: 可以使用python连接redis, 用于临时存储url
pymongo: 可以使用python连接mongodb, 存储爬下来的数据
lxml: 主要使用其中的xpath相关模块, 用于解析html
multiprocessing: 内置库, 用于开启线程池, 加快爬取速度

作图部分:

matplotlib: 用于作图
jieba: 用于中文分词
collections: 内置库, 用于统计词频
wordcloud: 用于生成词云图片
PIL: 用于图像处理

weixin_39942726

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。