【漫话机器学习系列】171.不完全随机缺失(Missing Not At Random, MNAR)

不完全随机缺失(Missing Not At Random, MNAR)

1. 概述

数据缺失是数据分析和机器学习中常见的问题,可能会影响分析的可靠性和模型的准确性。在数据缺失的分类中,不完全随机缺失(Missing Not At Random, MNAR) 是指数据缺失的概率并不是随机的,而是与未观察到的数据本身相关。这种类型的缺失可能导致严重的偏差,使得简单的填充方法或者删除缺失值的方法失去有效性。

2. 不完全随机缺失的定义

MNAR 数据缺失是指缺失的发生依赖于该变量本身的未观测值。例如:

  • 薪资调查:在一项薪资调查中,收入较高的人可能不愿意披露他们的收入,而低收入者更愿意回答相关问题。这种情况下,收入变量的缺失值依赖于收入本身(未被观测到的数据),因此是 MNAR。

  • 健康调查:在医疗研究中,健康状况较差的人可能不愿意填写健康问卷,从而导致缺失数据与健康状况的实际情况相关。

MNAR 与其他缺失数据机制的区别:

  • 完全随机缺失(Missing Completely At Random, MCAR):缺失数据的发生是完全随机的,与任何变量(包括观察到的和未观察到的)都无关。例如,调查问卷由于意外丢失部分数据。

  • 条件随机缺失(Missing At Random, MAR):缺失数据的发生与其他已观测变量相关,但与缺失变量本身的未观测值无关。例如,年龄较大的受访者更可能跳过收入问题,但一旦控制年龄,收入的缺失是随机的。

3. MNAR 产生的影响

由于 MNAR 的缺失概率依赖于数据本身,直接删除缺失值或使用简单的插补方法(如均值填充)可能会导致系统性偏差,最终影响数据分析和模型的预测能力。例如:

  • 回归分析中的偏倚:如果高收入人群倾向于不回答收入问题,那么回归模型可能会低估整体收入水平。

  • 机器学习模型的不准确性:如果训练数据集中某些类别的数据缺失过多,模型可能无法学习到完整的分布,从而降低预测能力。

  • 统计推断失真:MNAR 数据可能导致统计指标(如均值、中位数)偏离真实值,使得数据分析结论不可靠。

4. 处理 MNAR 数据的方法

由于 MNAR 数据的缺失模式复杂,处理 MNAR 需要更高级的方法:

  1. 收集额外信息:如果可能的话,尝试获取更多变量来解释缺失情况,使其转化为 MAR。例如,在薪资调查中,询问受访者是否愿意透露收入的原因,可能有助于理解缺失机制。

  2. 建模缺失机制:可以使用选择模型(Selection Model)模式混合模型(Pattern-Mixture Model) 来建模缺失数据的机制。例如:

    • 选择模型:建立一个二分类模型来预测数据是否缺失,然后在统计分析中调整缺失模式的影响。

    • 模式混合模型:假设不同的缺失模式对应不同的数据分布,并进行建模。

  3. 权重调整:使用加权方法(如逆概率加权,Inverse Probability Weighting, IPW)来调整数据,使得被观察到的数据能够代表整个总体。

  4. 最大似然估计(Maximum Likelihood Estimation, MLE):MLE 方法可以通过联合建模已观测数据和缺失数据的分布,提供更合理的估计。

  5. 多重插补(Multiple Imputation, MI):多重插补方法通过创建多个填充后的数据集,进行多次分析以减少不确定性。

5. 结论

不完全随机缺失(MNAR)是最复杂的一种数据缺失类型,因为其缺失机制与数据本身相关,导致简单的方法(如删除缺失值或均值填充)可能会引入严重的偏差。因此,在数据分析和机器学习中,正确识别 MNAR 并采用合适的统计或建模方法进行处理,是确保数据质量和分析可靠性的关键。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值