mysql缺失值处理_数据处理之缺失值的处理

目录

缺失值产生的原因

机械原因:由于机械原因导致的数据收集或保存的失败造成的数据缺失,如收集车流量数据的地感线圈损坏等

人为原因:由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据等

完全变量与不完全变量

数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量

缺失值的类型

完全随机缺失(Missing Completely at Random, MCAR)。数据的缺失与不完全变量以及完全变量都是无关的,比如家庭地址的缺失

随机缺失(Missing at Random, MAR)。数据的缺失仅仅依赖于完全变量,例如财务数据缺失情况与企业大小有关

非随机,不可忽略缺失(Not Missing atRandom,NMAR, or nonignorable)。不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的,比如高收入人群不愿意提供他们的收入数据

缺失值的处理方法

直接删除法

填充法

K最近距离邻法(K-means clustering)

多重填补(Multiple Imputation,MI)

直接删除法

直接删除含有缺失值的数据项,当含有缺失值的数据项只占总体数据量很小的一部分时效果最好

填充法

手动填充法(filling manually):在数据量较小的情况下可能是最好的方法,因为一般来说数据所有者对各列数据的含义更加清楚,手动填充后效果更好,但是在数据量较大时无法操作

特殊值填写(Treati

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值