机器学习的主要挑战

最新推荐文章于 2022-10-08 11:28:01 发布

Vxxxx_

最新推荐文章于 2022-10-08 11:28:01 发布

阅读量943

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Vxxxx_/article/details/108490770

版权

机器学习面临诸多挑战，包括训练数据不足、数据不具代表性、质量差、无关特征、过度拟合和拟合不足。为解决这些问题，需要进行有效的数据处理、特征工程、模型选择和验证。测试集和交叉验证是评估模型泛化能力的关键，而没有免费的午餐定理强调了选择模型时必须基于数据的假设。

摘要由CSDN通过智能技术生成

目录

机器学习的主要挑战
测试和验证

机器学习的主要挑战

训练数据的数量不足

目前大部分机器学习算法都需要大量的数据才能正常工作（除非重用现有模型的某些部分）。

数据的不合理有效性

2001年，微软有研究员表明，截然不同的机器学习算法（包括最简单的算法）在自然语言歧义消除这个复杂问题的表现上，几乎完全一致。
这些结果表明，和算法开发上，数据的建设也尤为重要.

训练数据不具有代表性

就如之前的根据人均GDP预测人民生活满意度任务为例，如果有部分数据缺失，则会是模型的预测不准确。

采样偏差

采样偏差是使训练数据不具代表性的重要原因，一个著名的案例是1936年，兰登对决罗斯福
其次，还有一种特殊类型的采用偏差，叫做无反应偏差。

质量差的数据

如果训练数据**满是错误、异常值和噪声，系统将更难检测到底层模式，**更不太可能会表现良好，所以很有必要花时间处理训练数据。

如果某些实例明显是异常情况，要么直接丢弃，要么手动修复错误
如果某些实例缺少部分特征，(例如，5%的顾客没有指定年龄),要么整体忽略这些特征，要么忽略这部分有缺失的实例，又或者是将缺失的值补充完整(比如填写年龄值的中位数，或者训练一个带有这个特征的模型，再训练一个不带有这个特征的模型)。

无关特征

正所谓：垃圾入࿰

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。