数据分析学习总结笔记05:缺失值分析及处理
1 缺失值概念
在数据收集过程中,由于各种原因可能导致数据收集不全,就会产生缺失值,且这种情况往往无法避免。
因此,缺失值分析是数据处理工作中常见的问题之一,如果处理不当,会导致部分分析过程简单地从分析中丢弃这些有缺失的个案;也可能会使分析结果精度降低,出现偏倚甚至是错误的结论。
另外,很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化,部分分析过程无法完成。
缺失值分析有助于解决出不完整的数据造成的若干问题,尽可能全面、有效地利用整个数据库1。
2 缺失值分析的类别
2.1 按数据缺失形式划分
(1)单元缺失:针对需调查的个案进行调查而没有得到个案信息。这种缺失在数据分析阶段常常无能为力。
(2)项目缺失:在调查内容中某些变量的观测结果有缺失。
2.2 按缺失机制与方式划分
(1)完全随机缺失:已评价的结果或即将进行的评价结果中,研究对象的缺失率是独立的。即,缺失现象完全随机发生,与自身或其他变量的取值无关。
(2)随机缺失:缺失数据的发生与数据库中其他无缺失变量的取值有关。某一观察值的缺失的概率仅依赖已有的观察结果,不依赖未观察到的结果。这是最常见的缺失机制。
(2)非随机缺失:数据的缺失不仅与其他