得到一份数据文件时,常常会发现文件中存在一些缺失的数据,而缺失数据会对分析任务产生阻碍,造成结果的偏移和统计工作的低效率。处理缺失数据的流程大致是:确认数据缺失机制——选择缺失数据的处理方法。
1.确认数据缺失机制
处理缺失数据前,首先应该了解数据缺失的机制。缺失值的机制并非造成缺失值的原因,而是描述缺失值与观测变量间可能的关系。确定数据缺失机制有利于选择合适的处理方法对数据进行处理。一般情况下,缺失机制可以分为以下三种类型:
①完全随机缺失,假设缺失的概率对于各变量的取值是等概率的,即缺失是完全随机的,那么删除缺失数据后的结果将是无偏的。缺失概率与其他变量无关,也与该变量自身无关。
——检验方法:T检验,按照缺失指示变量将各计量变量分为两组,用T检验比较两组均值有误差别。【看到有文章说其他类型缺失机制可能也出现这样情形,但是我个人认为如果是将其他所有测量变量都比较应该就只有完全随机缺失满足。故,认为t检验可行】
②随机缺失,指缺失的概率只与模型中某些观测变量有关,而与该变量自身无关。例如,在一次测试中,如果IQ达不到最低要求的100分,那么将不能参加随后的人格测试。在人格测试上因为IQ低于100分而产生的缺失值为随机缺失。通常情况下,完全随机缺失的假设很难被满足,而随机缺失则是一个相对宽松的假设。
③非随机缺失,当某变量出现缺失值的可能性只与自身相关时称作非随机缺失。例如,公司新录用了20名员工,由于6名员工表现较差,在试用期内辞退,试用期结束后的表现评定中,辞退的6名员工的表现分即为非随机缺失。
各缺失机制的具体判断方法见链接:http://w