目录
一、缺失数据定义
在实际工作中,常会因为某些原因导致数据缺失,只能观测到一部分数据,统计学中一般称为缺失数据。
二、缺失数据原因
- 调查对象忘记回答问题
- 调查对象拒绝回答敏感问题
- 调查对象错过约定时间或过早退出调查
- 获取这些信息的代价太大
- 记录设备出现问题或数据误记
三、缺失数据处理步骤
- 识别缺失数据
- 检查导致数据缺失的原因
- 删除包含缺失值的案例或用合理的数值插补缺失值
四、数据缺失机制
1.完全随机缺失(MCAR)
数据的缺失完全是随机的,数据缺失与否与其它任何完全观测或含缺失数据变量都无关,此时可以将数据完整的样本看作是所有数据集的一个简单随机样本。
2.随机缺失(MAR)
数据的缺失不是完全随机的,某变量数据缺失与否与其他完全观测变量相关,但与它自己的未观测值无关。
3.非随机、不可忽略缺失(NMAR)
数据不完全变量中数据缺失的概率依赖于数据不全变量的数值本身,这种缺失机制是不可忽略缺失。
【注】第三种缺失机制不易处理和建模,因而通常假设缺失数据前两种缺失机制。
五、缺失数据处理方法
1.直接删除
也就是将存在缺失数据的对象(元组、记录)删除,从而得到一个完整的数据信息表。