缺失值简介
造成数据缺失的原因
有些信息暂时无法获取。例如小越现在在看哪个小姐姐
有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了
有些对象的某个或某些属性是不可用的。例如小朱女朋友的身高
有些信息(被认为)是不重要的。例如你等下下课吃什么和美国没进18年世界杯没有关系
获取这些信息的代价太大。例如你早晨淀粉摄入量的值
系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策
数据缺失机制
完全随机缺失(missing completely at random,MCAR):指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。如家庭地址缺失
随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。例如财务数据缺失情况与企业的大小有关
非随机缺失(missing not at random,MNAR):指的是数据的缺失与不完全变量自身的取值有关。如高收入人群的不原意提供家庭收入
缺失值处理的必要性
数据缺失在许多研究领域都是一个复杂的问题,对数据挖掘来说,缺失值的存在,造成了以下影响:
1.系统丢失了大量的有用信息
2.系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握
3.包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出
数据挖掘算法本身更致力于避免数据过分拟合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,缺失值需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。
对缺失值做基本分析
一、SPSS篇
缺失模式分析
数据模式
缺失模式
制表模式
缺失情况的统计描述
单变量统计
指示变量统计量
0.png
二、R篇
识别缺失值
is.na( )
!complete.cases( )
VIM包
探索缺失值模式
1.列表显示缺失值 mice包 md.pattern( )
> data(sleep, package="VIM")
> library(mice)
> md.pattern(sleep)
BodyWgt BrainWgt Pred Exp Danger Sleep Span Gest Dream NonD
42 1 1 1 1 1 1 1 1 1 1 0
2 1 1 1 1 1 1 0 1 1 1 1
3 1 1 1 1 1 1 1 0 1 1 1
9 1 1 1 1 1 1 1 1 0 0 2
2 1 1 1 1 1 0 1 1 1 0 2
1 1 1 1 1 1 1 0 0 1 1 2
2 1 1 1 1 1 0 1 1 0 0 3
1 1 1 1 1 1 1 0 1 0 0 3
0 0 0 0 0 4 4 4 12 14 38
2.图形探究缺失值 VIM包
> data(sleep, package="VIM")
> library("VIM")
> aggr(sleep, prop=FALSE, numbers=TRUE) #prop:是否应该使用缺失/估算值和组合的比例,而不是总量;numbers:不同组合的比例或频率是否应该用数字表示
> matrixplot(sleep)
Click in a column to sort by the corresponding variable.
To regain use of the VIM GUI and the R console, click outside the plot region.
> marginplot(sleep[,c("Gest","Dream")], pch=c(20),
+ col=c("darkgray", "red", "blue"))
aggr.png
matrixplot.png
marginplot.png
3.用相关性探索缺失值
> x
> head(x)
BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger
1 0 0 1 1 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0 0 0
3 0 0 1 1 0 0 0 0 0 0
4 0 0 1 1 0 1 0 0 0 0
5 0 0 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0 0 0
> head(sleep)
BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger
1 6654.000 5712.0 NA NA 3.3 38.6 645 3 5 3
2 1.000 6.6 6.3 2.0 8.3 4.5 42 3 1 3
3 3.385 44.5 NA NA 12.5 14.0 60 1 1 1
4 0.920 5.7 NA NA 16.5 NA 25 5 2 3
5 2547.000 4603.0 2.1 1.8 3.9 69.0 624 3 5 4
6 10.550 179.5 9.1 0.7 9.8 27.0 180 4 4 4
> y 0)]
> head(y)
NonD Dream Sleep Span Gest
1 1 1 0 0 0
2 0 0 0 0 0
3 1 1 0 0 0
4 1 1 0 1 0
5 0 0 0 0 0
6 0 0 0 0 0</