第一步:明确问题
明确要分析什么问题
第二步:理解数据:
熟悉EXCEL界面,理解每个数据字段表示什么,并调整表格
三种数据类型:字符串类型、数值类型、逻辑类型
第三步:数据清洗:数据预处理
数据清洗步骤如下:
1、选择子集:选中整列,右键点击隐藏


2、列名重命名:双击直接修改
3、删除重复值:全选,选择数据--删除重复值,在弹出框里选择唯一ID,点确定


4、缺失值处理:
(1)选择每列,在屏幕右下角查看有多少数据,检查每列的计数是否一致。若不一致,即定位出缺失数据的列,且可以统计出缺失了多少条数据。


(2)四种处理方法:
----人工手工补全
----删除缺失数据
----用平均值代替缺失值
----用统计模型计算出的值代替缺失值
(3)定位缺失值:查找--选择定位条件--选择空值