怎样处理缺失数据?
一、缺失数据的定义
我们首先来看一下缺失数据的定义:
Missing data are unobserved values that would be meaningful for
analysis if observed; in other words, a missing value hides a
meaningful value.
缺失数据是指一些观测后对分析有意义的未观测数据。
例如,当我们在事先调查选举情况时,有三种答案,yes,no和missing。如果这个missing表示的是此人对选举不感兴趣,将会弃权,那这就不是一个我们需要处理的缺失数据,他可以自己算作一个类别。
相反,如果代表的是虽然此人现在没有选择但在选举时会投票,那我们就要把他当作一个需要我们赋值处理的缺失数据来分析。
二、缺失数据的模式
判断数据缺失的模式是十分重要的,因为有些特定的方法只能应用在相应的模式中。
首先,我们定义一个缺失指示矩阵(missingness indicator matrix)M。
M = ( m i j ) = { 1 y i j 缺失时 , 0 y i j 没有缺失时 . \ M = (m_{ij})=\begin{cases} 1&\text{$y_{ij}$ 缺失时},\\ 0&\text{$y_{ij}$ 没有缺失时}. \end{cases}\ M=(mij)={
10yij 缺失时,yij 没有缺失时.
通常情况下,我们只给 mij 赋值0或1,但如果有需求的时候,我们也可以根据不同缺失原因使其等于2,3等其他值来帮助我们后续的区分和分析。
下面我们开始提出一些针对不同缺失模式的解决方法。
-
单变量缺失(Univariate Missing Data)
-
个体无回应缺失(Unit and Item Nonresponse in Surveys)
-
项目无回应缺失(item nonresponse)
4. 纵向研究中的磨损(Attrition in Longitudinal Studies)
5. 由于两个变量不能同时被同时观测而缺失(The File-Matching Problem, with Two Sets of Variables Never Jointly Observed)
-
有意隐藏变量无法观测缺失(Patterns with Latent Variables That Are Never Observed)
-
因为干预无法继续进行而缺失(Missing Data in Clinical Trials treatment discontinuation)
干预中断和分析中断(analysis dropout)是不同的。
三、缺失数据的机制
数据缺失机制是十分重要的,因为我们要通过机制判断数据之间的独立性然后再选择补充方式。
我们首先依然定义一个缺失指示矩阵(missingness indicator matrix)M。
M = ( m i j ) = { 1 y i j 缺失时 , 0 y i j