em模型补缺失值_模型对缺失值的处理

最新推荐文章于 2024-01-02 12:00:17 发布

薯条说影

最新推荐文章于 2024-01-02 12:00:17 发布

阅读量550

点赞数

文章标签： em模型补缺失值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42124497/article/details/112873321

版权

模型对缺失值的处理

首先从两个角度解释你的困惑：

工具包自动处理数据缺失不代表具体的算法可以处理缺失项

对于有缺失的数据：以决策树为原型的模型优于依赖距离度量的模型

回答中也会介绍树模型，如随机森林 (Random Forest) 和 xgboost 如何处理缺失值。文章最后总结了在有缺失值时选择模型的小建议。

1. 机器学习工具库开发的 “哲学”

首先你有这个困惑是因为你直接调用了工具库，比如 Python 的 sklearn 和 xgboost 等，所以你认为算法 A 可以自动处理缺失值而 B 不可以。但真实情况是... 开发者在封装工具库的时候就已经考虑到了使用者可能导入了含有缺失值的数据，所以加了一个缺失值处理的函数。处理缺失值的不是算法 A，而是开发者额外写的函数。

但是，模型 / 算法本身不应该处理缺失值，处理缺失值的应该是用户。然而在现实情况下，如果用户不处理 / 不知道怎么处理，我们也必须提供一个默认的缺失值处理方法。但是这种自动处理的缺失值，效果往往不好，因为数据的精髓只有用户自己明白。

工具包提供自动数据清理的功能的好处：

防止用户导入的数据不符合模型要求而导致失败

节省用户的时间，提供一站式服务

工具包提供自动数据清理的功能的风险：

简单粗暴的处理模式会影响模型的结果，自动化的数据清理不可靠

用户应该提供符合模型要求的数据，这不是算法工具库的责任。算法工具包的默认要求就是用户提供适合的数据，因为用户对数据有更深刻的理解

可能会大幅度增加模型的运算时间

在软件工程领域，我们有一个比较经典的哲学思想叫做 “让它出错”(let it fail

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
em模型补缺失值_模型对缺失值的处理

模型对缺失值的处理首先从两个角度解释你的困惑：工具包自动处理数据缺失不代表具体的算法可以处理缺失项对于有缺失的数据：以决策树为原型的模型优于依赖距离度量的模型回答中也会介绍树模型，如随机森林 (Random Forest) 和 xgboost 如何处理缺失值。文章最后总结了在有缺失值时选择模型的小建议。1. 机器学习工具库开发的 “哲学”首先你有这个困惑是因为你直接调用了工具库，比如 Python...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。