- 数据爬取:先编写了Python程序对“拉勾网”进行“数据分析”岗的招聘信息并存储为csv格式。其中使用到Request Headers伪装成浏览器来访问网页,由于网站的反爬措施,仅使用请求头的信息仍然会弹出错误提示,因此需要使用*Request.Seeion()*生成cookies小饼干来维持会话。连接成功之后则是使用到json来解析网页信息,并通过循环的方式爬取出我们需要的信息。详细的代码见下图。
- 数据清洗:由于爬取到的数据中,薪资待遇一栏为区间的形式,难以对其进行分析,因此需要将其分解为“起薪”和“最高薪资”。将“工作经验”字段转换为“平均经验”字段。这一部分主要使用到正则表达式来选择一个数据中的数字类型字符,并通过循环添加到列表并生成新的字段。
- 数据分析:分别以“城市”、“薪资待遇”、要求等进行了数据的可视化分析,以及对福利待遇进行了词云的生成,主要使用到jieba库对文字进行分词,以及wordcloud库配合matplotlib生成词云图。
- 详细代码以及过程如下:
- 结论:
- “数据分析”岗在全国中,北京的需求量最多,达到60%的占比,排在第二的则是上海,约占33.3%左右,深圳和广州各约占16.7%的比例。而在深圳市,南山区的需求量远超其他区域,266条数据中有198条均在南山区,可见南山区各大互联网公司对“数据分析”岗的需求。
- 从分析的结果来看,“数据分析”岗的薪资待遇能达到1.5万元也是相当不错了,并且从词云图中可见,“平台”、“氛围”、“团队”、“发展空间”等也是相当的吸引人~
- 分析结果也显示,该岗位对本科学历的同学也是非常的友好呢~
爬取拉勾网“全国”“数据分析”、“深圳市”“数据分析”岗位招聘信息并进行分析
最新推荐文章于 2021-05-22 12:09:57 发布