目录
一.导读
前两篇我们写到了关于简单数据与复杂数据缺失值填充的方法,那这一节我们来谈一谈缺失值。
二.思考
对于这个社会群体,数据起着很大的作用,根据数据我们能够分析出一些现状和趋势,不仅如此在科学实验当中还能推动理论的验证。而在不同的资源的收集过程当中,难免会出现这样的情况,那么对于缺失值的解决就十分必要,这时候缺失值的正确性也更加重要,这恰恰取决于你选择的算法。缺失值其实顾名思义,就是在这一整个数据集中的缺失部分,可能是人为错误、或是机器原因。
1.直接剔除缺失值的问题所在
我们在上篇提及的剔除缺失值,如果对于数据中缺失值的比例相对于样本值总数较小,那么剔除掉缺失值是没有问题的,但是往往现实项目当中,我们遇到缺失值的问题并非如此简单,若直接剔除掉这些缺失值会导致“自由度”降低。
2.缺失值的类型
①完全随机缺失 (MCAR):
数据的缺失完全随机不由其他的数据特征取决。例如在调查问卷中的性别字段,取决于调查对象,不能从其他数值来加以断定。再比如家庭住址的缺失,这种极端的缺失的形状。
②随机缺失 (MAR)
数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。
③非随机缺失 (MNAR)
缺失值既取决于数据的特征又取决于缺失值本身。例如女性不愿透露其年龄,年龄的缺失与性别有关。
3.缺失值的解决方案
我们在之前就讲过:
之后我们还会加以介绍随机森林,在学习决策树之后,我们拭目以待。
三.结尾
数据缺失处理对于初学者来说相当重要,搞清楚目的、概念、做法、远远不够,我们还需要做出更多的实践来获取经验,祝前程似锦。