问题:了解目前杭州市“数据分析岗”的招聘情况。
- 数据获取
借助八爪鱼采集器中的免费模板,爬取拉勾网上杭州数据分析岗的数据,得到124条记录,保存csv文件。

为了不破坏原始数据,新建一个sheet副本进行操作,命名为“拉勾网-招聘信息(处理数据)”。由于职位描述中有个别字段内容过多,且主要是对于后续处理没有帮助,故选择删去该列。
之后全选数据——鼠标置于A列出,调整至合适列宽15(便于数据显示)。
选择“试图——冻结窗口——冻结首行”(无他,感jio很酷)。
最终调整之后如下:

2. 数据清洗
2.1 隐藏不必要的列
对于我们此次需要研究的问题而言,“工作地点、岗位属性、发布时间、职位诱惑、爬取时间”等列是不需要的,故选择隐藏。
隐藏列快捷键:ctrl + 0
隐藏行快捷键:ctrl + 9 取消隐藏行快捷键:ctrl +shift + 9
对于“工作地址”我们只想知道在哪个区即可,不需要知道具体的地址,因此做分列处理,提取原“工作地址”列的前六个字符即可。

LEFT()、RIGHT()、MID() 的应用
选择列,筛选,发现异常值,修改后返回即完成,最后隐藏掉原“工作地址”列。

2.2 删除重复项
首先要找到重复值:,选择列,开始——条件格式——突出显示单元格规则——重复值

为了避免过度删除,决定将“招聘单位、薪资区间、招聘岗位、工作经验”合并为一个新的单元格,显示在N列上,然后对N列进行查找重复值。

CONCATENATE()函数的应用
数据——删除重复项——取消全选——组合信息——确定
2.3 处理缺失值
excel中处理缺失值 主要对比各列的“计数”:

快速定位缺失值:选择缺失的A列——开始——查找和选择——定位条件——空值:

如何一次性补全多个缺失值:选中所有要补全的单元格,输入值,ctrl+enter
2.4 创建平均薪水

Find(要查找的字符串,字符串在单元格中的位置)
Left / Mid / Right()

快速应用公式至整列:定位编辑公式了的单元格右下角,双击 +光标。
数据——筛选——最低薪水列——找到错误原因:


改进:对K替换为k :选中该列,开始 ——查找与替换——K→k即可。
平均薪水创建时报错:


如何将文本格式的数字转化为数字格式:分列——分隔符不勾选

2.5创建数据透视表【注意:数据分析表对整个sheet中数据进行分析】

点击:行标签——其他排序选项——降序排序(计数项:招聘岗位)。

清理不属于“数据分析”岗的职位: if-count-find 进行判断。
IF( COUNT(
FIND( {"数据分析","分析师"}, B2)
)
"Yes" , "No")
3、根据问题进行构建模型分析
问题一:杭州哪个区对于‘’数据分析“岗的需求比较大?

分析可得:很显然,杭州西湖、余杭、滨江等区对“数据分析岗”的需求量较大,这与该些区域内分布着大量的互联网企业的事实相契合。
问题二:杭州’数据分析“岗对于工作经验的要求?

分析可得:数据分析岗是个“年轻”的岗位,各招聘单位比较青睐拥有“1-5年工作经验”的人。
问题三:杭州“数据分析”岗位的薪水如何?



补充:创建一个名为“求职意向”的新excel文件,假定里面包含了你中意的单位名称,那么如何建立有效的连接,以便查询到每家单位的“薪资区间”呢?

VLOOKUP()的应用
具体实现如下:
