爬取拉勾网“全国”“数据分析”、“深圳市”“数据分析”岗位招聘信息并进行分析

最新推荐文章于 2021-09-12 23:03:06 发布

V!neyard

最新推荐文章于 2021-09-12 23:03:06 发布

阅读量377

点赞数 1

分类专栏：数据分析文章标签：数据分析 Python 爬虫

本文链接：https://blog.csdn.net/sinat_26323143/article/details/102268600

版权

数据分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

数据爬取：先编写了Python程序对“拉勾网”进行“数据分析”岗的招聘信息并存储为csv格式。其中使用到Request Headers伪装成浏览器来访问网页，由于网站的反爬措施，仅使用请求头的信息仍然会弹出错误提示，因此需要使用*Request.Seeion()*生成cookies小饼干来维持会话。连接成功之后则是使用到json来解析网页信息，并通过循环的方式爬取出我们需要的信息。详细的代码见下图。
数据清洗：由于爬取到的数据中，薪资待遇一栏为区间的形式，难以对其进行分析，因此需要将其分解为“起薪”和“最高薪资”。将“工作经验”字段转换为“平均经验”字段。这一部分主要使用到正则表达式来选择一个数据中的数字类型字符，并通过循环添加到列表并生成新的字段。
数据分析：分别以“城市”、“薪资待遇”、要求等进行了数据的可视化分析，以及对福利待遇进行了词云的生成，主要使用到jieba库对文字进行分词，以及wordcloud库配合matplotlib生成词云图。
详细代码以及过程如下：
结论：
1. “数据分析”岗在全国中，北京的需求量最多，达到60%的占比，排在第二的则是上海，约占33.3%左右，深圳和广州各约占16.7%的比例。而在深圳市，南山区的需求量远超其他区域，266条数据中有198条均在南山区，可见南山区各大互联网公司对“数据分析”岗的需求。
2. 从分析的结果来看，“数据分析”岗的薪资待遇能达到1.5万元也是相当不错了，并且从词云图中可见，“平台”、“氛围”、“团队”、“发展空间”等也是相当的吸引人~
3. 分析结果也显示，该岗位对本科学历的同学也是非常的友好呢~

V!neyard

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬取拉勾网“全国”“数据分析”、“深圳市”“数据分析”岗位招聘信息并进行分析

数据爬取：先编写了Python程序对“拉勾网”进行“数据分析”岗的招聘信息并存储为csv格式。其中使用到Request Headers伪装成浏览器来访问网页，由于网站的反爬措施，仅使用请求头的信息仍然会弹出错误提示，因此需要使用*Request.Seeion()*生成cookies小饼干来维持会话。连接成功之后则是使用到json来解析网页信息，并通过循环的方式爬取出我们需要的信息。详细的代码见下...
复制链接

扫一扫