em模型补缺失值_数据分析中缺失值的处理

缺失值简介

造成数据缺失的原因

有些信息暂时无法获取。例如小越现在在看哪个小姐姐

有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了

有些对象的某个或某些属性是不可用的。例如小朱女朋友的身高

有些信息(被认为)是不重要的。例如你等下下课吃什么和美国没进18年世界杯没有关系

获取这些信息的代价太大。例如你早晨淀粉摄入量的值

系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策

数据缺失机制

完全随机缺失(missing completely at random,MCAR):指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。如家庭地址缺失

随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。例如财务数据缺失情况与企业的大小有关

非随机缺失(missing not at random,MNAR):指的是数据的缺失与不完全变量自身的取值有关。如高收入人群的不原意提供家庭收入

缺失值处理的必要性

数据缺失在许多研究领域都是一个复杂的问题,对数据挖掘来说,缺失值的存在,造成了以下影响:

1.系统丢失了大量的有用信息

2.系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握

3.包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出

数据挖掘算法本身更致力于避免数据过分拟合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,缺失值需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。

对缺失值做基本分析

一、SPSS篇

缺失模式分析

数据模式

缺失模式

制表模式

缺失情况的统计描述

单变量统计

指示变量统计量

0.png

二、R篇

识别缺失值

is.na( )

!complete.cases( )

VIM包

探索缺失值模式

1.列表显示缺失值 mice包 md.pattern( )

> data(sleep, package="VIM")

> library(mice)

> md.pattern(sleep)

BodyWgt BrainWgt Pred Exp Danger Sleep Span Gest Dream NonD

42 1 1 1 1 1 1 1 1 1 1 0

2 1 1 1 1 1 1 0 1 1 1 1

3 1 1 1 1 1 1 1 0 1 1 1

9 1 1 1 1 1 1 1 1 0 0 2

2 1 1 1 1 1 0 1 1 1 0 2

1 1 1 1 1 1 1 0 0 1 1 2

2 1 1 1 1 1 0 1 1 0 0 3

1 1 1 1 1 1 1 0 1 0 0 3

0 0 0 0 0 4 4 4 12 14 38

2.图形探究缺失值 VIM包

> data(sleep, package="VIM")

> library("VIM")

> aggr(sleep, prop=FALSE, numbers=TRUE) #prop:是否应该使用缺失/估算值和组合的比例,而不是总量;numbers:不同组合的比例或频率是否应该用数字表示

> matrixplot(sleep)

Click in a column to sort by the corresponding variable.

To regain use of the VIM GUI and the R console, click outside the plot region.

> marginplot(sleep[,c("Gest","Dream")], pch=c(20),

+ col=c("darkgray", "red", "blue"))

aggr.png

matrixplot.png

marginplot.png

3.用相关性探索缺失值

> x

> head(x)

BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger

1 0 0 1 1 0 0 0 0 0 0

2 0 0 0 0 0 0 0 0 0 0

3 0 0 1 1 0 0 0 0 0 0

4 0 0 1 1 0 1 0 0 0 0

5 0 0 0 0 0 0 0 0 0 0

6 0 0 0 0 0 0 0 0 0 0

> head(sleep)

BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger

1 6654.000 5712.0 NA NA 3.3 38.6 645 3 5 3

2 1.000 6.6 6.3 2.0 8.3 4.5 42 3 1 3

3 3.385 44.5 NA NA 12.5 14.0 60 1 1 1

4 0.920 5.7 NA NA 16.5 NA 25 5 2 3

5 2547.000 4603.0 2.1 1.8 3.9 69.0 624 3 5 4

6 10.550 179.5 9.1 0.7 9.8 27.0 180 4 4 4

> y 0)]

> head(y)

NonD Dream Sleep Span Gest

1 1 1 0 0 0

2 0 0 0 0 0

3 1 1 0 0 0

4 1 1 0 1 0

5 0 0 0 0 0

6 0 0 0 0 0</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值