1、数据缺失原因
- 信息获取不及时;很多情况下数据值的属性不是同时获得的,比如体检,安全警报。
- 信息遗漏;可能是人为遗漏,也可能是由于数据采集设备和存储设备的故障等原因。
- 属性不可用;特殊数据中没有该属性值。
2、属性值缺失和数据缺失
属性值缺失不代表一定存在数据值的缺失,如果缺失的属性值本来就是无关的,则可直接忽略或删除。因此,在补全缺失值时需要结合相应的场景对缺失值中包含的有用信息进行补全。
3、缺失值的类型
- 完全随机缺失:即缺失的数据是完全随机的,不依赖其他值,对样本的其他属性没有任何影响。
- 随机缺失:即缺失的数据不是完全随机的,依赖于其他属性值。例如身高的缺失与年龄分布有一定关系。
- 非随机缺失:缺失的数据与分析的内容有关,对样本分析的结果造成影响。
4、缺失值丢失的影响
- 数据可能丢失大量有用信息,对算法的结果造成偏差。
- 数据分析的不确定性增强
- 数据空缺增加算法的时间复杂度
5、缺失值处理
- 删除;将不重要的属性值或者整个数据删除。优点是简单粗暴,但是不能挖掘隐藏信息,有误删的情况,降低算法性能。
- 数据补全;根据不同的补全方法计算补全值进行补全,可以人工填写,特殊值法,平均值法,期望最大,K邻近值等,优点是能最大还原原始数据,但是不恰当的补全可能会引入噪声,甚至改变原始数据的信息。
- 不处理;通常用贝叶斯网络和人工神经网络进行数据挖掘。
- 高维映射;将变量映射到高维空间,可以保留原始数据的全部信息且不用考虑缺失值,缺点是计算量过大。