怎样处理缺失数据(一):判断缺失的模式和机制

本文介绍了缺失数据的定义、缺失数据的模式及其重要性,并深入探讨了缺失数据的机制,包括完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR),强调了理解缺失数据机制在数据分析中的关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

怎样处理缺失数据?

一、缺失数据的定义

我们首先来看一下缺失数据的定义:

Missing data are unobserved values that would be meaningful for
analysis if observed; in other words, a missing value hides a
meaningful value.

缺失数据是指一些观测后对分析有意义的未观测数据。
例如,当我们在事先调查选举情况时,有三种答案,yes,no和missing。如果这个missing表示的是此人对选举不感兴趣,将会弃权,那这就不是一个我们需要处理的缺失数据,他可以自己算作一个类别。
相反,如果代表的是虽然此人现在没有选择但在选举时会投票,那我们就要把他当作一个需要我们赋值处理的缺失数据来分析。

二、缺失数据的模式

判断数据缺失的模式是十分重要的,因为有些特定的方法只能应用在相应的模式中。

首先,我们定义一个缺失指示矩阵(missingness indicator matrix)M。
  M = ( m i j ) = { 1 y i j  缺失时 , 0 y i j  没有缺失时 .   \ M = (m_{ij})=\begin{cases} 1&\text{$y_{ij}$ 缺失时},\\ 0&\text{$y_{ij}$ 没有缺失时}. \end{cases}\  M=(mij)={ 10yij 缺失时,yij 没有缺失时. 
通常情况下,我们只给 mij 赋值0或1,但如果有需求的时候,我们也可以根据不同缺失原因使其等于2,3等其他值来帮助我们后续的区分和分析。

下面我们开始提出一些针对不同缺失模式的解决方法。

  1. 单变量缺失(Univariate Missing Data)
    Univariate Missing Data

  2. 个体无回应缺失(Unit and Item Nonresponse in Surveys)
    Unit and Item Nonresponse in Surveys

  3. 项目无回应缺失(item nonresponse)
    item nonresponse4. 纵向研究中的磨损(Attrition in Longitudinal Studies)
    Attrition in Longitudinal Studies5. 由于两个变量不能同时被同时观测而缺失(The File-Matching Problem, with Two Sets of Variables Never Jointly Observed)

  4. 有意隐藏变量无法观测缺失(Patterns with Latent Variables That Are Never Observed)

  5. 因为干预无法继续进行而缺失(Missing Data in Clinical Trials treatment discontinuation)
    干预中断和分析中断(analysis dropout)是不同的。

三、缺失数据的机制

数据缺失机制是十分重要的,因为我们要通过机制判断数据之间的独立性然后再选择补充方式。

我们首先依然定义一个缺失指示矩阵(missingness indicator matrix)M。
  M = ( m i j ) = { 1 y i j  缺失时 , 0 y i j

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值