一,缺失数据概要
1 .缺失原因 分为无意的,有意的,不存在。
2.缺失类型 ,缺失分为完全随机缺失,随机缺失,完全非随机缺失
3.缺失处理方法
删除法,数据补充(替换补充,拟合补充),虚拟变量,不处理
二,缺失数据的类型
1,缺失分为完全随机缺失,随机缺失,完全非随机缺失
2 完全缺失- MCAR(missing completely at random):完全缺失,如家庭地址缺失
3 随机缺失-MAR(missing at random):不完全缺失,处理方法-删除,插补,不处理以及构造新特征。
4 非随机缺失MNAR(missing not at random):指数据缺失与不完全变量自身取值有关,例如:收入高德人不愿意提供家庭收入
三缺失值处理方法
1.删除记录法-dropout
列表删除法-(缺失值小于1%),会导致样本不完整
配对删除法
加权调整法
优点:简单缺点:但是会缺失数据,造成数据偏移。
2.数据填补
替换缺失值
方法:统计量填充-均值,中位数
优点:简单方便,方便迭代
缺点:填充值不精准
3.拟合缺失值
方法:模型拟合预测填充(EM,多重插值)
单一填补法
人工填补法
均值填补法
回归填补
热平台填补法(hot deck)
冷平台填补法
极大似然估计
期望最大法
K最近距离邻法
C4.5方法
多重填补法
随机回归填补法(PMM法)
趋势得分法
马尔科夫链蒙特卡罗法
优点:拟合较为精准
缺点:带一定的偏差
3 dummy虚拟变量
方法:增加一列
优点:简单
缺点:提供信息有限
4不处理
适用于:贝叶斯网络,人工神经网络,树模型。
优点 :简单
缺点:无法提供额外信息
5 深度学习处理方法
方法:拟合参数,缺失之采用网络填充,dropout机制
五 异常值
常用检验方法:3原则,箱线图,离群点检验算法。
处理方法 :对数据转换,缩尾,截尾,插值。
1 异常数据定义:离群点。