【漫话机器学习系列】171.不完全随机缺失（Missing Not At Random, MNAR）

最新推荐文章于 2025-05-17 18:34:14 发布

IT古董

最新推荐文章于 2025-05-17 18:34:14 发布

阅读量1k

点赞数 16

分类专栏：漫话机器学习系列专辑文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/IT_ORACLE/article/details/146592909

版权

漫话机器学习系列专辑专栏收录该内容

266 篇文章

订阅专栏

不完全随机缺失（Missing Not At Random, MNAR）

1. 概述

数据缺失是数据分析和机器学习中常见的问题，可能会影响分析的可靠性和模型的准确性。在数据缺失的分类中，不完全随机缺失（Missing Not At Random, MNAR） 是指数据缺失的概率并不是随机的，而是与未观察到的数据本身相关。这种类型的缺失可能导致严重的偏差，使得简单的填充方法或者删除缺失值的方法失去有效性。

2. 不完全随机缺失的定义

MNAR 数据缺失是指缺失的发生依赖于该变量本身的未观测值。例如：

薪资调查：在一项薪资调查中，收入较高的人可能不愿意披露他们的收入，而低收入者更愿意回答相关问题。这种情况下，收入变量的缺失值依赖于收入本身（未被观测到的数据），因此是 MNAR。
健康调查：在医疗研究中，健康状况较差的人可能不愿意填写健康问卷，从而导致缺失数据与健康状况的实际情况相关。

MNAR 与其他缺失数据机制的区别：

完全随机缺失（Missing Completely At Random, MCAR）：缺失数据的发生是完全随机的，与任何变量（包括观察到的和未观察到的）都无关。例如，调查问卷由于意外丢失部分数据。
条件随机缺失（Missing At Random, MAR）：缺失数据的发生与其他已观测变量相关，但与缺失变量本身的未观测值无关。例如，年龄较大的受访者更可能跳过收入问题，但一旦控制年龄，收入的缺失是随机的。

3. MNAR 产生的影响

由于 MNAR 的缺失概率依赖于数据本身，直接删除缺失值或使用简单的插补方法（如均值填充）可能会导致系统性偏差，最终影响数据分析和模型的预测能力。例如：

回归分析中的偏倚：如果高收入人群倾向于不回答收入问题，那么回归模型可能会低估整体收入水平。
机器学习模型的不准确性：如果训练数据集中某些类别的数据缺失过多，模型可能无法学习到完整的分布，从而降低预测能力。
统计推断失真：MNAR 数据可能导致统计指标（如均值、中位数）偏离真实值，使得数据分析结论不可靠。

4. 处理 MNAR 数据的方法

由于 MNAR 数据的缺失模式复杂，处理 MNAR 需要更高级的方法：

收集额外信息：如果可能的话，尝试获取更多变量来解释缺失情况，使其转化为 MAR。例如，在薪资调查中，询问受访者是否愿意透露收入的原因，可能有助于理解缺失机制。
建模缺失机制：可以使用选择模型（Selection Model） 或 模式混合模型（Pattern-Mixture Model） 来建模缺失数据的机制。例如：
- 选择模型：建立一个二分类模型来预测数据是否缺失，然后在统计分析中调整缺失模式的影响。
- 模式混合模型：假设不同的缺失模式对应不同的数据分布，并进行建模。
权重调整：使用加权方法（如逆概率加权，Inverse Probability Weighting, IPW）来调整数据，使得被观察到的数据能够代表整个总体。
最大似然估计（Maximum Likelihood Estimation, MLE）：MLE 方法可以通过联合建模已观测数据和缺失数据的分布，提供更合理的估计。
多重插补（Multiple Imputation, MI）：多重插补方法通过创建多个填充后的数据集，进行多次分析以减少不确定性。