本文原始数据来自于拉勾网以上海区域数据运营岗为关键字搜索爬虫而来,为保证数据时效性,筛选了20200508-20200606期间的数据,分析的目的主要是在后续求职时给自己一个市场预期以及个人决策上的指导,以下是本次分析关注的主要问题:
1、疫情期间,数据运营岗位招聘需求变化如何,市场需求量大吗?
2、数据运营岗位招聘的总体现状如何?
如:学历要求,工作经验要求,行业分布等等
3、数据分析的薪资分布如何,行业平均薪资之间会有差异吗,差异多大呢
【数据分析过程】
1、数据清洗
以下为爬取数据后的原始数据集
经过一系列拆分和数据清洗,数据被整理成以下形式:
数据清洗过程总结如下:
清洗难点主要有:
①爬虫导出来的数据格式如若要放在excel中处理,最好用csv格式,xlsx导出后容易有bug
②csv格式下爬虫出来的结果仍然有很多特殊的地方,例如文本会有特殊符号,可以用clean()函数清楚不可打印的字符
③发布日期的计算和格式统一;擅于观察数