em模型补缺失值_模型对缺失值的处理

模型对缺失值的处理

首先从两个角度解释你的困惑:

工具包自动处理数据缺失不代表具体的算法可以处理缺失项

对于有缺失的数据:以决策树为原型的模型优于依赖距离度量的模型

回答中也会介绍树模型,如随机森林 (Random Forest) 和 xgboost 如何处理缺失值。文章最后总结了在有缺失值时选择模型的小建议。

1. 机器学习工具库开发的 “哲学”

首先你有这个困惑是因为你直接调用了工具库,比如 Python 的 sklearn 和 xgboost 等,所以你认为算法 A 可以自动处理缺失值而 B 不可以。但真实情况是... 开发者在封装工具库的时候就已经考虑到了使用者可能导入了含有缺失值的数据,所以加了一个缺失值处理的函数。处理缺失值的不是算法 A,而是开发者额外写的函数。

但是,模型 / 算法本身不应该处理缺失值,处理缺失值的应该是用户。然而在现实情况下,如果用户不处理 / 不知道怎么处理,我们也必须提供一个默认的缺失值处理方法。但是这种自动处理的缺失值,效果往往不好,因为数据的精髓只有用户自己明白。

工具包提供自动数据清理的功能的好处:

防止用户导入的数据不符合模型要求而导致失败

节省用户的时间,提供一站式服务

工具包提供自动数据清理的功能的风险:

简单粗暴的处理模式会影响模型的结果,自动化的数据清理不可靠

用户应该提供符合模型要求的数据,这不是算法工具库的责任。算法工具包的默认要求就是用户提供适合的数据,因为用户对数据有更深刻的理解

可能会大幅度增加模型的运算时间

在软件工程领域,我们有一个比较经典的哲学思想叫做 “让它出错”(let it fail

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值