缺失值的产生机制

缺失值可分为两类:一类是这个值实际存在但是没有被观测到,例如客户的性别;另一类是这个值实际就不存在,例如,在调查顾客购买的洗发液品牌时,如果某位顾客根本没有购买任何洗发液,那么这位顾客购买的洗发液品牌缺失。如何处理缺失值是一个很复杂的课题,有兴趣的读者可以参阅这方面的专著。

缺失值的产生有三种机制:

1.完全随机缺失(MissingCompletelyatRandom)

某个变量是否缺失与它自身的值无关,也与其他任何变量的值无关。例如,由于测量设备出故障导致某些值缺失。

2.随机缺失(MissingatRandom)

在控制了其他变量已观测到的值后,某个变量是否缺失与它自身的值无关。例如,人们是否透露收入可能与性别、教育程度、职业等因素有关系。

如果这些因素都观测到了,而且尽管收入缺失的比例在不同性别、教育程度、职业的人群之间有差异,但是在每一类人群内收入是否缺失与收入本身的值无关,那么收入就是随机缺失的。

3.非随机缺失(MissingNotatRandom)

即使控制了其他变量已观测到的值,某个变量是否缺失仍然与它自身的值有关。例如,在控制了性别、教育程度、职业等已观测因素之后,如果收入是否缺失还依赖于收入本身的值,那么收入就是非随机缺失的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值