基于前程无忧的互联网就业分析

最新推荐文章于 2025-02-24 15:56:30 发布

木烨

最新推荐文章于 2025-02-24 15:56:30 发布

阅读量2.6k

点赞数 7

文章标签：爬虫机器学习 python 数据分析可视化

本文链接：https://blog.csdn.net/qq_32088519/article/details/103959078

版权

可视化同时被 3 个专栏收录

1 篇文章

订阅专栏

python

1 篇文章

订阅专栏

数据分析

0 篇文章

订阅专栏

基于前程无忧数据的互联网就业分析
by 木烨

此文系作者公共选修课《数据科学引论》大作业，作为大二非计算机类学生，且此作业为考试周完成，时间较紧张，如有不严谨之处，还望体谅。

本文将从简要介绍，数据爬取，数据清洗，数据可视化分析，结果展示五个方面进行展示。

一.简要介绍

问题背景
互联网行业作为目前公认的高薪岗位，互联网就业也有着很大的市场需求，每年无数毕业生进入互联网行业就业
问题阐述
哪些城市对互联网职业薪酬需求更大？提供的薪酬更加诱人？

掌握哪一种编程语言在就业时更具优势，可以获得更高的薪酬？

学历、工作经验对于就业薪酬又有着怎样的影响？
从这些现实问题入手，分析互联网就业的现状。

数据集：从51job.com抓取数据进行分析统计。

主要使用：scrapy，正则表达式，SVM与随机森林预测，Kmeans聚类，BIRCH聚类，词云图，可视化方法

二.数据爬取

利用爬虫从51job.com（前程无忧）网站搜集相关信息。
(网址链接为：https://search.51job.com/)

先后尝试爬取了拉勾网、BOSS网与前程无忧网这三个国内较大的招聘网站。

经过多次碰壁发现，拉勾网与BOSS或因为所需信息位于js中，或因为反爬虫机制过强导致爬虫易使得IP被封，而前程无忧网反爬虫机制远弱于BOSS与拉勾网，相对而言数据收集的难度，但因其可爬取数据并不整齐，因此数据清洗需要较多的工作。

爬虫具体步骤如下：

1.首先对https://search.51job.com/ 爬取得到spider1.csv，由于此网站仅含有少量信息，其余信息隐藏在每个职位对应的招聘小网页。所以先从这一网站爬取具体职位对应的有详细介绍的网页网址

2.对与小网页进行爬取，得到spider2.csv，网站示例如：https://jobs.51job.com/beijing/119317470.html?s=01&t=0

3.将两个csv文件进行合并得出data.csv数据集

爬取数据共计十万组，涉及北京、上海、广州、深圳、杭州、成都、重庆、哈尔滨、西安、武汉十座城市，展示如下：

三.数据清洗

1.原始爬取数据有job（职位名称）、web（网站）、company招聘公司、companyweb（公司详细介绍网站）、place（工作地点）、salary（工资薪酬）、time（发布时间）、jtap（词条，其中包含地点、工作经验、学历要求、招聘人数等内容）、text（员工福利介绍）、key（关键词）、duty（职责与工作描述）

2.由于原本网站的限制，工作经验、学历要求、招聘人数全部位于jtap一列，用“|”隔开，用正则表达式提取关键词

3.将不规整的原始薪酬数据转化统一格式，并提取数字，将万/年、元/天、千/月统一转化为万/月

4.从job(职位名称)、key(职位关键词)、duty(对职位需求的描述)匹配所需的编程语言，并存储在不同的列中

5.删去多余的web、companyweb等列,进行一些格式调整

整理之后数据如下，education为学历要求，money为薪酬（统一格式化为月/年），city为城市，num为招聘人数，exp为工作经验要求，之后共有19种语言构成邻接矩阵，1代表该职位对此种语言有需求。

匹配语言有：'c++','java','c#','python','go','php','matlab','swift','lua','perl','delphi','kotlin','ruby','typescript','vba','rust','haskell','visual basic','sql'