谈谈缺失值

目录

一.导读

二.思考

1.直接剔除缺失值的问题所在 

2.缺失值的类型

①完全随机缺失 (MCAR):

②随机缺失 (MAR)

③非随机缺失 (MNAR)

3.缺失值的解决方案

三.结尾


一.导读

前两篇我们写到了关于简单数据与复杂数据缺失值填充的方法,那这一节我们来谈一谈缺失值。

二.思考

对于这个社会群体,数据起着很大的作用,根据数据我们能够分析出一些现状和趋势,不仅如此在科学实验当中还能推动理论的验证。而在不同的资源的收集过程当中,难免会出现这样的情况,那么对于缺失值的解决就十分必要,这时候缺失值的正确性也更加重要,这恰恰取决于你选择的算法。缺失值其实顾名思义,就是在这一整个数据集中的缺失部分,可能是人为错误、或是机器原因。

1.直接剔除缺失值的问题所在 

我们在上篇提及的剔除缺失值,如果对于数据中缺失值的比例相对于样本值总数较小,那么剔除掉缺失值是没有问题的,但是往往现实项目当中,我们遇到缺失值的问题并非如此简单,若直接剔除掉这些缺失值会导致“自由度”降低。

2.缺失值的类型

 

完全随机缺失 (MCAR):

数据的缺失完全随机不由其他的数据特征取决。例如在调查问卷中的性别字段,取决于调查对象,不能从其他数值来加以断定。再比如家庭住址的缺失,这种极端的缺失的形状。

②随机缺失 (MAR)

数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。

③非随机缺失 (MNAR)

缺失值既取决于数据的特征又取决于缺失值本身。例如女性不愿透露其年龄,年龄的缺失与性别有关。

3.缺失值的解决方案

我们在之前就讲过:

数据探索与可视化:数据值缺失处理 -上-CSDN博客

数据探索欲可视化:数据值缺失填充-下-CSDN博客

之后我们还会加以介绍随机森林,在学习决策树之后,我们拭目以待。 

三.结尾

数据缺失处理对于初学者来说相当重要,搞清楚目的、概念、做法、远远不够,我们还需要做出更多的实践来获取经验,祝前程似锦。

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值