数据的清洗和预处理,很重要啦~
1.以变量为单位检查
拿到数据的时候,我们往往会先看看有哪些变量,变量与变量之间是否有关系。以变量为单位检查
的时候,我们分为一致性检查和逻辑检查。我们的数据清洗和预处理也是从这些变量开始的~
1.1一致性检查——单个变量的检查
我们的数据通常是由部分合并而来,在合并过程中可能变量的编码不一样,比如性别,有的用0和1,有的用F和M来标记,此时,需要将变量统一为一样的编码类型。
1.2逻辑检查——多个变量之间关系的检查
确保单个变量整体上没有问题后,把多个变量放在一起,看它们是否会出现问题,这就是我们要做的逻辑检查。比如,某用户婚姻状态(变量1)选择了“未婚”,但是另一半的收入(变量2)写了非零数据。这种就是数据出现了逻辑问题,需要判断用户的真实情况来修改数据,或者无法确定的话,当作缺失数据处理。
2.以变量的属性值为单位检查
2.1 【是什么】什么是缺失值
①数据空缺;
②数据无效
上述两种情况均为缺失值。
2.2 【为什么】缺失值出现的原因
2.2.1为什么会出现缺失值?
①