【机器学习】机器学习的主要挑战与应对方式

最新推荐文章于 2022-10-08 11:28:01 发布

DrCrypto

最新推荐文章于 2022-10-08 11:28:01 发布

阅读量1.5k

点赞数

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011240016/article/details/85041290

版权

本文探讨了机器学习中常见的挑战，包括训练数据不足、表征性不强、质量差、无关特征、过拟合和欠拟合等问题，并提出了相应的应对策略，如数据增强、特征工程和验证方法的选择。强调了在实际应用中，正确处理数据和选择合适模型的重要性。

摘要由CSDN通过智能技术生成

在机器学习中，我们的主要任务是选择一个学习算法并将其在数据上训练，所以有可能效果不佳的两个地方在于：

算法不好
数据不好

我们先从数据不好开始看起。

训练数据的数量不够

如果是教一个小孩子认什么是苹果，指给他看一下苹果，可能要重复几次，然后这个小孩子就能够识别苹果了。但是对于机器学习而言，实现相同的效果则要难得多。

机器学习算法需要大量的数据来完成任务。

即使是简单的任务，也需要大量的样本，对于复杂的问题，比如图片和语音识别则可能需要百万级别的样本。

对于复杂问题，数据要比算法重要得多，但是通常数据集都是小型的，或者中等大小的数据集，获取额外的数据并不便宜，也不简单。

训练数据的表征性不够

为了使得模型泛化足够好，训练数据要包含泛化到新数据的特征。如果用的训练集表征性不够，那么训练得到的模型就不太可能得到精确的预测值。但这个要求其实很高。

一方面，如果数据样本太小，则很容易受样本噪音的影响；另一方面，即使是样本数量足够大，如果采样方法不够好，也得不到具有表征性的样本数据。这个问题被称作采样偏差。

简言之，在训练时看到的数据要能够代表数据背后的模式。就像考试一样，平时训练的题目不太可能和考试题目一样，但是知识点是一样的。如果训练题没有覆盖到考试的知识点，恐怕考试就得临场发挥了。

训练数据的质量不够

这个比较明显，如果你的训练数据充满

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

DrCrypto

CSDN认证博客专家 CSDN认证企业博客

码龄11年

648: 原创

1万+: 周排名

124万+: 总排名

490万+: 访问

: 等级

3万+: 积分

2591: 粉丝

4658: 获赞

1036: 评论

8726: 收藏

私信

关注

热门文章

分类专栏

最新评论

思考PC的位数设计
weixin_63494731: 看半天王道答案不知所云，这下搞懂了
中断占据CPU时间的计算问题
争336: 每400ns发出一次中断请求的意思是两次中断请求间隔400ns，两次中断请求之间进行了中断请求的响应和处理，所以整个CPU时间是400ns而不是500ns
关于信道利用率的总结与一道习题的最终解释
mlpaladin2021: 我也觉得不需要加后面一个64。因为确认帧大小是忽略不计的，而且就算有长度，凭什么一个确认帧的发送时延就和一个数据帧的发送时延一样长？长度和速度都不确定
kA*与(kA)*的行列式计算
Ns.豪: 应该是左边同时乘以(kA)−1
死锁习题细究
2401_84023945: 若是考这种阅读理解，那么就算是死锁预防也不会限制用户申请资源的顺序，因为死锁预防只需要破坏四种必要条件中的一种，又不是非得采用顺寻资源分配法，所以说这种题出的就很没水平

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。