数据的清洁和预处理

本文探讨了数据清洗和预处理的重要性,主要聚焦于缺失值的检查和处理。通过一致性检查和逻辑检查确保数据质量,详细阐述了缺失值的定义、原因、处理方法,以及如何确认数据缺失机制。数据缺失处理包括直接删除、填补等策略,选择合适的方法对于后续分析至关重要。
摘要由CSDN通过智能技术生成

数据的清洗和预处理,很重要啦~

1.以变量为单位检查

拿到数据的时候,我们往往会先看看有哪些变量,变量与变量之间是否有关系。以变量为单位检查的时候,我们分为一致性检查和逻辑检查。我们的数据清洗和预处理也是从这些变量开始的~

1.1一致性检查——单个变量的检查

我们的数据通常是由部分合并而来,在合并过程中可能变量的编码不一样,比如性别,有的用0和1,有的用F和M来标记,此时,需要将变量统一为一样的编码类型。

1.2逻辑检查——多个变量之间关系的检查

确保单个变量整体上没有问题后,把多个变量放在一起,看它们是否会出现问题,这就是我们要做的逻辑检查。比如,某用户婚姻状态(变量1)选择了“未婚”,但是另一半的收入(变量2)写了非零数据。这种就是数据出现了逻辑问题,需要判断用户的真实情况来修改数据,或者无法确定的话,当作缺失数据处理。

2.以变量的属性值为单位检查

2.1 【是什么】什么是缺失值

①数据空缺;
②数据无效
上述两种情况均为缺失值。

2.2 【为什么】缺失值出现的原因
2.2.1为什么会出现缺失值?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值