数据清洗
数据清洗:数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。软件开发中的需求分析数据清洗在数据预处理中占据很重要的地位
有监督清洗:在对应领域专家的指导下,收集分析数据,手工去除明显的噪声数据和重复记录,填补缺值数据等清洗动作
无监督清洗:根据一定的业务规则,预先定义好数据清洗算法,由计算机自动执行算法,对数据集进行清洗,然后产生清洗报告
缺失值处理的两种方法
删除法,根据数据处理的不同角度,删除法可分为以下4种:
(1)删除不合格数据样本
(2)删除变量:当某个数据因为缺失值多而且对研究目标影响不大,将整个变量整体删除,是可以的
(3)使用最初始数据分析:当处理完后数据存在较多缺失而且最初是数据是完整时,可以用最初始的数据来进行操作不用处理完的数据因为他的缺失值太多
(4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加工,可以降低删除数据带来的偏差。
插补法:在条件允许的情况下,找到缺失值的替代值进行插补,尽可能还原真实数据是更好的方法。常见的方法有均值插补、回归插补、二阶插补、热平台、冷平台等单一变量插补。
(1)均值法计算非缺失值的平均值后用这个平均值去代替缺失值的插补方法,均