EDA

一,缺失数据概要
 1 .缺失原因 分为无意的,有意的,不存在。
2.缺失类型 ,缺失分为完全随机缺失,随机缺失,完全非随机缺失
 3.缺失处理方法
删除法,数据补充(替换补充,拟合补充),虚拟变量,不处理
二,缺失数据的类型
 1,缺失分为完全随机缺失,随机缺失,完全非随机缺失
 2 完全缺失- MCAR(missing completely at random):完全缺失,如家庭地址缺失
 3 随机缺失-MAR(missing at random):不完全缺失,处理方法-删除,插补,不处理以及构造新特征。
 4 非随机缺失MNAR(missing not at random):指数据缺失与不完全变量自身取值有关,例如:收入高德人不愿意提供家庭收入

三缺失值处理方法

1.删除记录法-dropout
列表删除法-(缺失值小于1%),会导致样本不完整
配对删除法
加权调整法
 优点:简单缺点:但是会缺失数据,造成数据偏移。
 2.数据填补
  替换缺失值
   方法:统计量填充-均值,中位数
   优点:简单方便,方便迭代
   缺点:填充值不精准
3.拟合缺失值
   方法:模型拟合预测填充(EM,多重插值)
  
单一填补法
人工填补法
均值填补法
回归填补
热平台填补法(hot deck)
冷平台填补法
极大似然估计
期望最大法
K最近距离邻法
C4.5方法
多重填补法
随机回归填补法(PMM法)
趋势得分法
马尔科夫链蒙特卡罗法
  优点:拟合较为精准
  缺点:带一定的偏差

3 dummy虚拟变量
   方法:增加一列
   优点:简单
   缺点:提供信息有限

    4不处理
            适用于:贝叶斯网络,人工神经网络,树模型。

优点 :简单
缺点:无法提供额外信息
  5 深度学习处理方法
   方法:拟合参数,缺失之采用网络填充,dropout机制

五 异常值
   常用检验方法:3原则,箱线图,离群点检验算法。
  处理方法 :对数据转换,缩尾,截尾,插值。
  1 异常数据定义:离群点。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值