本文按照下面5个步骤来进行
1.提出问题
2.理解数据
3.数据清洗
4.构建模型与分析
5.结论
接下来是正式的分析
1.提出问题
1.在哪个城市找到数据分析师的职位概率比较大?
2.数据分析职位的薪水是怎么样的水平?
3.根据工作年限的不同,薪水是怎么样变化的?
2.理解数据
利用爬虫爬取招聘网站上的数据,整理成我们需要的Excel表格
![352a4a5e59a1ce77388267af59cc3a78.png](https://img-blog.csdnimg.cn/img_convert/352a4a5e59a1ce77388267af59cc3a78.png)
其中红框里面的是我们需要的字段,它们的含义是:
城市:招聘岗位所在的城市
公司全名:招聘岗位的公司名称
公司ID:招聘岗位的公司ID
公司简称:招聘岗位的公司简称
公司大小:招聘岗位的公司规模
公司所在商区:招聘岗位的公司所在的位置
职位所属:招聘岗位位于哪个部门下
教育要求:对应聘者的学历要求
公司所属领域:招聘岗位的公司所在的领域
职位ID:招聘的岗位所对应的职位ID
职位福利:招聘岗位的福利
职位名称:招聘岗位的名称
薪水:招聘岗位的薪水
工作年限要求:应聘者需要的工作年限要求
3.数据清洗
数据清洗分下面几个步骤
1.选择子集
2.列名重命名
3.删除重复值
4.缺失值处理
5.一致化处理
6.数据排序
7.异常值处理
接下来我们按上面步骤,对数据进行清洗
1.选择子集
根据我们的问题,我们只需要城市、公司简称、职位ID、职位名称、薪水、工作年限要求
这6个列,其他的列我们可以隐藏起来
![52b37a3c77a154270780f95d9f489344.png](https://img-blog.csdnimg.cn/img_convert/52b37a3c77a154270780f95d9f489344.png)
最后表格中只显示我们需要的6列
![e7a67cf18d8aedde5280d5b64aba7cf9.png](https://img-blog.csdnimg.cn/img_convert/e7a67cf18d8aedde5280d5b64aba7cf9.png)
2.列名重命名
![5e2cb5319d958634b145ea7cb7ad3da9.png](https://img-blog.csdnimg.cn/img_convert/5e2cb5319d958634b145ea7cb7ad3da9.png)
因为这里列明的表达含义已经非常清楚了,就没有更改
3.删除重复值
![eee856c0c07a520fa479ea0eb5429fc3.png](https://img-blog.csdnimg.cn/img_convert/eee856c0c07a520fa479ea0eb5429fc3.png)