连续特征和分类特征数据缺失的处理方法

连续的特征

  • 缺失比例比较严重 可以考虑舍弃
  • 可以考虑使用平均值 中位数 分位数填充
  • 算法预测 (利用样本中的其它特征作为 特征值有缺失的特征作为目标值

分类的特征

  • 缺失比例比较严重 可以考虑舍弃
  • 把缺失作为单独的分类, 如果之前的数据只有两个分类,那么把缺失考虑进来就变成3个分类
  • 算法预测

利用算法预测缺失值

  • 其它特征和要预测的特征之间是否有联系
  • 样本数据是否足够
  • 利用算法预测缺失值会引入噪声
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值