下面内容摘录自《R 语言与数据科学的终极指南》专栏文章的部分内容,每篇文章都在 5000 字以上,质量平均分高达 94 分,看全文请点击下面链接:
欢迎订阅我们专栏
.......前面部分请点击上面链接看原文
2、数据缺失的三种分类
完全随机缺失(MCAR, Missing Completely at Random)
数据缺失是完全随机的,与任何观测值或未观测值无关。例如,某些问卷中的问题因打印错误而未显示,导致所有受访者均未回答该问题。在这种情况下,缺失的数据与其他变量无关,因此不会引入偏倚。但完全随机缺失在实际研究中较为少见。
随机缺失(MAR, Missing at Random)
数据缺失与已观测的变量有关,但与未观测的变量无关。例如,年龄较大的受试者更有可能失访,但在同一年龄组内,失访是随机的。这种情况下,尽管数据缺失不是完全随机的,但如果对已观测变量进行适当的调整,可以得到无偏估计。
非随机缺失(MNAR, Missing Not at Random)
数据缺失与未观测的变量有关。例如,重病患者由于身体不适,更有可能拒绝接受某些检查,导致数据缺失。在这种情况下,缺失的数据与未观测的值相关,通常难以处理,因为缺失机制本身与数据有关,可能会引入偏倚。
3、数据缺失的影响
减少统计效能
统计效能是指研究检测到实际存在效应的能力。在临床试验中,每个参与者的数据都至关重要。当部分数据缺失时,等同于减少了样本量。假设我们在一项试验中原计划招募100名参与者,但由于各种原因,最终只有80名参与者提供了完整的数据。那么,我们实际用于分析的数据点只有80个,而不是最初设计的100个。
统计功效的降低:样本量减少直接影响统计功效。统计功效(Statistical Power)是指试验正确拒绝零假设的概率。当样本量不足时,即使有实际效应存在,我们也可能因为数据不足而无法检测到这种效应。统计功效降低意味着试验得出的结论可靠性下降,可能会出现更多的假阴性结果,即实际存在的效应未被检测到。
效应大小的估计偏差:数据缺失不仅影响统计功效,还会对效应大小的估计产生偏差。较小的样本量使得效应大小的估计变得不准确,可能会夸大或低估实际效应。例如,在药物试验中,如果一些患者因为副作用退出试验,这些患者的数据缺失会导致对药物副作用严重性的低估。
引入偏倚
数据缺失不仅仅是一个统计学问题,它还会引入系统性偏倚,导致研究结果偏离真实情况。
非随机缺失:如果数据缺失不是随机发生的,而是与某些特定因素相关,则会引入偏倚。例如,在一项关于重病患者的研究中,重病患者往往更有可能因病情严重而无法完成整个试验,这就导致了非随机缺失。如果我们不考虑这些缺失数据,可能会低估疾病的严重性,甚至对某些治疗的有效性产生错误的结论。
偏倚的表现:这种偏倚可以表现为结果的系统性误差。例如,在一项新药试验中,如果药物副作用严重的患者由于无法耐受而退出试验,那么剩下的数据可能会显示出药物的副作用较轻。实际上,这是因为最严重的副作用患者的数据被忽略了,导致了对药物安全性的不准确评估。
.......后面部分请看原文
欢迎订阅我们专栏,深度系统地学习R语言。
为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用,由于众多同学在计算机编程上经验欠缺,特此开设《R 语言与数据科学的终极指南》专栏。该专栏每周至少会定期更新三篇,直到整个专栏更新完成。每篇文章都在 5000 字以上,质量平均分高达 94 分。要提醒大家的是,每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!
专栏《R 语言与数据科学的终极指南》链接:https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482