数据缺失的三种分类和数据缺失的影响

最新推荐文章于 2024-10-17 07:37:11 发布

DAT | 数据科学和人工智能兴趣组

最新推荐文章于 2024-10-17 07:37:11 发布

阅读量1k

点赞数 19

分类专栏：（免费）R语言学习专栏文章标签：数据挖掘 r语言数据分析 R 学习数据缺失

本文链接：https://blog.csdn.net/2301_79425796/article/details/141280275

版权

（免费）R语言学习专栏专栏收录该内容

549 篇文章 19 订阅

订阅专栏

下面内容摘录自《R 语言与数据科学的终极指南》专栏文章的部分内容，每篇文章都在 5000 字以上，质量平均分高达 94 分，看全文请点击下面链接：

4章4节：临床数据科学中如何用R来进行缺失值的处理-CSDN博客文章浏览阅读206次。缺失值处理是数据分析中的重要环节。通过本文，我们了解了如何在R中检测、观察和可视化缺失值。https://blog.csdn.net/2301_79425796/article/details/140928427?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22140928427%22%2C%22source%22%3A%222301_79425796%22%7D

欢迎订阅我们专栏

.......前面部分请点击上面链接看原文

2、数据缺失的三种分类

完全随机缺失（MCAR, Missing Completely at Random）

数据缺失是完全随机的，与任何观测值或未观测值无关。例如，某些问卷中的问题因打印错误而未显示，导致所有受访者均未回答该问题。在这种情况下，缺失的数据与其他变量无关，因此不会引入偏倚。但完全随机缺失在实际研究中较为少见。

随机缺失（MAR, Missing at Random）

数据缺失与已观测的变量有关，但与未观测的变量无关。例如，年龄较大的受试者更有可能失访，但在同一年龄组内，失访是随机的。这种情况下，尽管数据缺失不是完全随机的，但如果对已观测变量进行适当的调整，可以得到无偏估计。

非随机缺失（MNAR, Missing Not at Random）

数据缺失与未观测的变量有关。例如，重病患者由于身体不适，更有可能拒绝接受某些检查，导致数据缺失。在这种情况下，缺失的数据与未观测的值相关，通常难以处理，因为缺失机制本身与数据有关，可能会引入偏倚。

3、数据缺失的影响

减少统计效能

统计效能是指研究检测到实际存在效应的能力。在临床试验中，每个参与者的数据都至关重要。当部分数据缺失时，等同于减少了样本量。假设我们在一项试验中原计划招募100名参与者，但由于各种原因，最终只有80名参与者提供了完整的数据。那么，我们实际用于分析的数据点只有80个，而不是最初设计的100个。

统计功效的降低：样本量减少直接影响统计功效。统计功效（Statistical Power）是指试验正确拒绝零假设的概率。当样本量不足时，即使有实际效应存在，我们也可能因为数据不足而无法检测到这种效应。统计功效降低意味着试验得出的结论可靠性下降，可能会出现更多的假阴性结果，即实际存在的效应未被检测到。

效应大小的估计偏差：数据缺失不仅影响统计功效，还会对效应大小的估计产生偏差。较小的样本量使得效应大小的估计变得不准确，可能会夸大或低估实际效应。例如，在药物试验中，如果一些患者因为副作用退出试验，这些患者的数据缺失会导致对药物副作用严重性的低估。

引入偏倚

数据缺失不仅仅是一个统计学问题，它还会引入系统性偏倚，导致研究结果偏离真实情况。

非随机缺失：如果数据缺失不是随机发生的，而是与某些特定因素相关，则会引入偏倚。例如，在一项关于重病患者的研究中，重病患者往往更有可能因病情严重而无法完成整个试验，这就导致了非随机缺失。如果我们不考虑这些缺失数据，可能会低估疾病的严重性，甚至对某些治疗的有效性产生错误的结论。

偏倚的表现：这种偏倚可以表现为结果的系统性误差。例如，在一项新药试验中，如果药物副作用严重的患者由于无法耐受而退出试验，那么剩下的数据可能会显示出药物的副作用较轻。实际上，这是因为最严重的副作用患者的数据被忽略了，导致了对药物安全性的不准确评估。

.......后面部分请看原文

欢迎订阅我们专栏，深度系统地学习R语言。

为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用，由于众多同学在计算机编程上经验欠缺，特此开设《R 语言与数据科学的终极指南》专栏。该专栏每周至少会定期更新三篇，直到整个专栏更新完成。每篇文章都在 5000 字以上，质量平均分高达 94 分。要提醒大家的是，每结束一个章节，专栏的优惠力度就会减小，当下正是订阅的最佳优惠时段，诚邀各位积极订阅！

专栏《R 语言与数据科学的终极指南》链接：https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482