数据清洗 - 案例实战 - 上集
学习目标:
一方面学习数据清洗的一个流程;
另一方面通过数据清洗流程加深对Excel软件的熟悉程度.
0. 数据清洗流程
- 选择子集
- 列名重命名
- 缺失数据处理
- 数据类型转换
- 数据排序
- 异常值处理
记住做数据分析一定要备份数据, 因为对于数据操作很多是不可逆的,如果出现错误,防止无法找到原数据.
1. 选择子集
这里主要考察成交件数, 所以将成交金额等其他指标列进行隐藏操作.
2. 列名重命名
同时也可以根据业务背景进行修改列名, 方便后续的分析和操作.
该项目将数据表原来的"内容类型"修改为"渠道类型", 方便后面的分析理解.
3. 缺失数据处理
首先, 查看各列是否存在缺失值.
一个方法就是依次选中每一列, 然后充分利用Excel工具的下边的单元格信息提示,
另一个方法就是使用Excel的数据工具栏.
首先,在Excel表格中选中你想要操作的列名单元格,在这里我选中了G1单元格:引导商详次数,然后点击工具栏的数据,再点击"排序和筛选"模块中的"筛选"功能.
操作结束后, 就如下图所示:
对于每个列名单元格的右小角有一个向下的下拉箭头框.
点击某个下拉箭头框, 我依次点击了两个列名, 一个没有缺失值, 一个有缺失值. 没有缺失值的如下所示:
有缺失值的如下所示:
根据这两张图, 很明显能够发现存在缺失值的列名, 点击下拉箭头框会有"(空白)"这个选项.
如果我们想要分析或者查看对应的缺失值所对应的情况, 可以只选中"(空白)",其他把对勾去掉, 如下所示:
然后,再查看表格中的数据结果:
这样, 对于"渠道类型"这一列缺失值的情况就展现出来了.
对于缺失值主要存在三种处理方式:
- 手动填写
- 平均值填充
- 删除缺失值
这个案例, 进行删除处理.
4. 数据类型转换
首先, 是查看每列它是什么类型.
这里涉及的操作步骤就是, 选中要查看的单元格, 点击"开始"工具栏, 在"数字"模块中,可以看到该单元格的数据类型. 可以参考下图进行加深操作印象:
对于该列, 希望能够将其文本类型转换为常规的数字类型, 只需要进行如下操作.
选中要修改的数据列, 点击"开始"工具栏, 在"数字"模块中,可以看到该单元格的数据类型, 点击右边的下拉箭头, 选择"常规"格式.
操作结束后, 再进行查看数据类型的步骤, 就会发现, 由原来的"文本"类型变成了"常规"类型. 这就是数据类型的转换.
简单的数据分析 - 数据清洗小案例 - 上集, 包含900+字, 9张图. 下集, 马上整理.
一起学习, 一起冲!