python爬取岗位数据并分析_前程无忧python岗位信息爬取和分析

项目简介

  • 爬取12月14日所有前程无忧中的python岗位信息, 共33751条数据
  • 分析python岗位的以下情况:
  1. 各个城市的岗位数量分布
  2. 不同学历要求下的岗位数量分布
  3. 工作经验年限与工资的关系
  4. 城市与工资的关系
  5. 岗位要求的技能关键词的词频
  • 项目地址: https://github.com/397460848/51job-spider-and-data-analysis
  • 觉得有用的帮我点个赞, github点个星

项目内容

  1. 各城市的岗位数量分布

a56ac1e7f0a77b8f57c65a489833f735.png

2. 不同学历要求下的岗位数量分布

  • 有一些岗位没有学历要求, 所以只有28000多条数据

0332aa7ba15d65bcecb5f0f47b47be3a.png

3. 工作经验年限与工资的关系

  • 所有的单位全部换算成了(元/月)
  • 岗位的工资一般都是一个区间, 在该次分析中都是使用工资区间的下限*1.2来计算的, 我认为这样可以较为准确的反应出岗位的实际工资
  • 使用箱型图可以比较好的忽略异常值, 反应出大体的工资情况

ce8b631787da5177b68049837dd9ed92.png

4. 城市与工资的关系

  • 为了方便展示, 只统计了岗位最多的8个城市

d58656943ccf31f62152771bb2010973.png

5. 岗位要求的技能关键词的词云

5cdb0b4bc88251faafc94fbc12acbb90.png
    • 词频统计如下, 大家可以观察一下哪些技能关键词是python岗位被提及较多的

775978f6824e3ae72e8e1675cb7afdef.png

使用的库

爬虫部分:

  • requests: 用于请求url
  • redis: 可以使用python连接redis, 用于临时存储url
  • pymongo: 可以使用python连接mongodb, 存储爬下来的数据
  • lxml: 主要使用其中的xpath相关模块, 用于解析html
  • multiprocessing: 内置库, 用于开启线程池, 加快爬取速度

作图部分:

  • matplotlib: 用于作图
  • jieba: 用于中文分词
  • collections: 内置库, 用于统计词频
  • wordcloud: 用于生成词云图片
  • PIL: 用于图像处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值