第一步:明确问题
明确要分析什么问题
第二步:理解数据:
熟悉EXCEL界面,理解每个数据字段表示什么,并调整表格
三种数据类型:字符串类型、数值类型、逻辑类型
第三步:数据清洗:数据预处理
数据清洗步骤如下:
1、选择子集:选中整列,右键点击隐藏
![c3816395c1bc282f9c5c78d456c57c97.png](https://i-blog.csdnimg.cn/blog_migrate/ba1842d76a7c3bacf512c61759cd105a.jpeg)
![ec8e6e73cbaf2c26d66b6fb5f6bcf794.png](https://i-blog.csdnimg.cn/blog_migrate/037f69b0a8c746443df01d1ca502e2fc.jpeg)
2、列名重命名:双击直接修改
3、删除重复值:全选,选择数据--删除重复值,在弹出框里选择唯一ID,点确定
![ea94c90c7a67c04cdf0410444eb62d20.png](https://i-blog.csdnimg.cn/blog_migrate/90a2de779394c0dd14305d63e89f706d.jpeg)
![19ee9186f86b5b04fe02aa778f325e6d.png](https://i-blog.csdnimg.cn/blog_migrate/58b19d72eb120e44257c08e4a9054ddb.jpeg)
4、缺失值处理:
(1)选择每列,在屏幕右下角查看有多少数据,检查每列的计数是否一致。若不一致,即定位出缺失数据的列,且可以统计出缺失了多少条数据。
![59a0c7fea741a7756549a175625cea60.png](https://i-blog.csdnimg.cn/blog_migrate/f1d65539478c88cc178a6ad28c51d65e.jpeg)
![0140b9d75c7ff09fc9f8850f6e770f49.png](https://i-blog.csdnimg.cn/blog_migrate/e9d3421a610263ad40bb3fd73e6bcd01.jpeg)
(2)四种处理方法:
----人工手工补全
----删除缺失数据
----用平均值代替缺失值
----用统计模型计算出的值代替缺失值
(3)定位缺失值:查找--选择定位条件--选择空值