一、项目背景与价值
正值春招黄金期,Boss 直聘平台日均新增岗位超 10 万 +。本项目通过 Python 爬虫技术抓取 5000 + 岗位数据,结合数据分析与可视化技术,深度解析区域人才分布、技术栈需求、学历薪资关系等核心维度,为企业招聘策略制定与求职者职业规划提供数据支撑。
二、需求分析
- 各行政区岗位数量分布
- 提取技术关键词,生成词云
- 统计不同学历要求的占比
- 箱线图或直方图展示薪资分布
- 预测薪资或其他变量
- 不同地区和技术栈的需求热度
- 技术栈之间的共现关系
- 岗位要求词频趋势图
三、技术实现全流程
1. 数据采集系统构建
1.1、第一个方法:配置历览器配置、修改自己的useragent
1.2、第二个方法:创建数据库,连接数据库,创建表,添加字段
1.3、第三个方法:将数据插入数据库,添加一些try-expect增强代码健壮性
1.4、第四个方法:搜索url并定位岗位信息
遍历每个职位卡片,模仿点击
1.5、第五个方法:采集岗位信息并插入数据库
1.6、第六个方法:关闭浏览器,关闭数据库
1.7、创建实例
-
- 运行代码完毕后会自动生成一个数据库
2.1、点开数据库图形界面,点开对应的boss_info表
2.2、将数据导出成为excel表
-
- 清洗数据,拓宽表、
3.1、将公司规模标准化,提取岗位信息的技术栈、将岗位信息中的“小白”数据行值清除,拆分薪资列,新增行政区列、填充空值
-
- 需求分析图形展示
4.1:各行政区岗位数量分布
拓展:公司规模和各行政区的分布情况
4.2:提取技术关键词,生成词云(词云图)
4.3:统计不同学历要求的占比(饼图)
4.4:箱线图或直方图展示薪资分布(箱型图)
4.5:预测薪资或其他变量
4.6:不同地区和技术栈的需求热度(热力图)
4.7: 技术栈之间的共现关系(网络图)
4.8岗位要求词频趋势图
-
- 结论
- 区域人才分布特征
- 核心区域聚集效应:天河区、越秀区等核心城区集中了约65%的岗位,平均薪资较其他区域高15-20%
- 区域技术专精:
- 越秀区:偏重传统数仓技术(Hive, SQL)
- 南沙区:新兴技术需求旺盛(Flink, Spark Streaming)
- 技术栈市场需求
- 基础技术主导:SQL(92%岗位要求)、Hive(85%)为必备技能
- 新兴技术溢价:掌握Flink薪资溢价达18%,Spark达12%
- 黄金组合:"Hive+Spark+Flink"组合岗位平均薪资达35K,高于其他组合27%
- 学历与薪资关系
- 学历门槛效应:
- 本科:薪资中位数22K,占比58%
- 硕士:薪资中位数28K,溢价27%
- 博士:薪资中位数42K,但岗位仅占3%
- 学历边际效益:硕士相较本科薪资提升显著,但博士岗位稀缺性限制普及性
- 学历门槛效应:
- 公司规模分析
- 规模薪资正相关:超大型企业平均薪资较中型企业高32%
- 技术栈差异:
- 大型企业:要求分布式技术(Hadoop, Spark)
- 中小企业:侧重ETL工具(Kettle, DataStage)