一、缺失值的原因
缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值的产生的原因主要为:
- 无意的:信息被遗漏,比如由于工作人员的疏忽忘记而缺失;或由于数据采集器故障等原因造成的缺失,比如系统实时性要求较高的时候,机器来不及判断和决策而造成缺失;
- 有意的:有些数据集在特征描述中会规定将缺失值也作为一种特征值,这时候缺失值就可以看作是一种特殊的特征值;
- 不存在:有些特征属性根本就是不存在的,比如一个未婚者的配偶名字就没法填写,再如一个孩子的收入状况也无法填写。
二、缺失值的分类
按照数据缺失机制可分为:
(1) 完全随机缺失(missing completely at random, MCAR)
所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关。数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量&#x