数据清洗技术——Excel数据清洗


一、实验目的和要求

1、了解 Excel 的基本功能和用途
2、掌握 Excel 数据清洗的基本步骤
3、了解 Excel 数据清洗的方法
4、掌握 Excel 常用的数据分析函数
5、掌握 Excel 数据清洗常用的函数

二、实验环境

操作系统:Windows XP/7/8/10…
Excel版本:2007/2019…
JDK版本:1.7.0
Kettle版本:4.4.0
MySQL版本:8.0

三、实验内容和实验步骤

实验内容:
现有一个企业招聘职位信息的数据集,约有 5000条数据,客户提出需要了解数据分析师岗位情况,包括岗位分布和特点、能力要求、工资和薪酬等。由于数据集没有经过处理,所以表中的数据还很不规范,含有大量数据重复、缺失、单列数据粒度过大等问题,因此,在进行数据分析前,需要进行数据清洗操作,以使数据规范化。


实验步骤:

1、数据预览
拿到数据后,不要急着动手处理,先对数据集做总体的观察。如图 1-1 所示,可以看到,数据集表头由城市、公司名称、公司编号、公司福利、公司规模、经营区域、经营范围、教育程度、职位编号、职位名称、薪水和工作年限要求等属性组成。

在这里插入图片描述
数据整体较为规整,但通过初步观察,该数据集主要存在如下问题:
(1)数据缺失
(2)数据不一致
(3)存在“脏”数据
(4)数据不规范

2、进行数据清洗
在 Excel 中新建一个工作表执行数据清洗,方便和原始数据区分开来。
(1) 清洗薪水数据
采用分列操作(数据-分列),以“-”为分隔符号,得到两列数据,将属性修改为最低薪水和最高薪水,如图所示。
在这里插入图片描述
在这里插入图片描述
然后,利用替换功能(开始-查找和选择-替换),删除 k 字符串和“以上”两个 字,结果如图 1-3 所示。在这里插入图片描述
在这里插入图片描述
(2) 分列操作
按照与薪水数据清洗类似操作,通过分列操作分别对公司福利、经营区域、
经营范围、职位标签等属性进行数据拆分。
在这里插入图片描述
在这里插入图片描述
(3)搜索替换不一致
公司名称的不一致的处理,只需要用搜索替换法删除即可。
职位名称的不一致处理可以单独针对职位名称进行数据透视表分析,统计出各名称出现的频次,具体操作如下。
步骤 1:选中职位名称列,在菜单栏中选择“插入”—“数据透视表”选项,然后单击“确定”按钮,在出现的数据透视表字段列表中,分别拖动“职位名称”到“行标签”和“Σ数值”中,结果如图 1-4 所示。出现次数为 3 次以下的职位名称,约有2000 个,采用关键词查找的方法,找到包含有“数据分析”、“分析师”、“数据运营”等关键词的岗位。
在这里插入图片描述
在这里插入图片描述
步骤 2:结合使用 FIND 和数组函数,得到多条件查找的结果。查找公式 为:=IF(COUNT(FIND({“数据分析”,“数据运营”,“分析师”},J2)),“1”,“0”),结果如图所示1为包含,0为不包含。将1过滤出来,就是需要的最终数据。
在这里插入图片描述
在这里插入图片描述
经过以上步骤的处理,数据集中的重复值得到清理,公司名称、职位名称部分的命名做了规范化处理,薪水范围拆分成两列处理等,数据集得到一定程度的清洗。

  • 11
    点赞
  • 72
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

土豆家的地瓜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值