机器学习相关概念--拟合问题

最新推荐文章于 2024-08-30 15:57:36 发布

pwd`×续缘`

最新推荐文章于 2024-08-30 15:57:36 发布

阅读量849

点赞数 30

分类专栏： AI机器学习文章标签：算法人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/njhniubi/article/details/136812094

版权

AI机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

学习目标

理解什么是欠拟合
理解什么是过拟合
理解什么是泛化问题

1.欠拟合

😎下图中，蓝色点是初始数据点，用来训练模型。绿色的线用来表示最佳模型，红色的线表示当前的模型

上面两张图中，红色直线代表的模型都属于欠拟合的情况：

模型在训练集上表现的效果差，没有充分利用数据
预测准确率很低，拟合结果严重不符合预期

😎产生的原因 ：模型过于简单，模型“太差啦”👿

出现的场景：欠拟合一般出现在机器学习模型刚刚训练的时候，也就是说一开始我们的模型往往是欠拟合也正是因为如此才有了优化的空间，我们通过不断优化调整算法来使得模型的表达能力更强。

😎解决办法：

（1）添加其他特征项：因为特征项不够而导致欠拟合，可以添加其他特征项来很好的解决。

（2）添加多项式特征，我们可以在线性模型中通过添加二次或三次项使得模型的泛化能力更强。

（3）减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，需要减少正则化参数。

2.过拟合

上图是模型过拟合的情况：即模型在训练集上表现的很好（模型“太好啦”👿），但是在测试集上效果却很差。也就是说，在已知的数据集合中非常好，再添加一些新数据进来效果就会差很多。

🧡产生的原因： 可能是模型太过于复杂、数据不纯、训练数据太少等造成。

💛出现的场景： 当模型优化到一定程度，就会出现过拟合的情况。

💚解决办法：

（1）重新清洗数据：导致过拟合一个原因可能是数据不纯导致的

（2）增大训练的数据量：导致过拟合的另一个原因是训练数据量太小，训练数据占总数据比例太低。

（3）采用正则化方法对参数施加惩罚：导致过拟合的原因可能是模型太过于复杂，我们可以对比较重要的特征增加其权重，而不重要的特征降低其权重的方法。常用的有L1正则和L2正则，后续课程中会详细介绍

（4）采用dropout方法，即采用随机采样的方法训练模型，常用于神经网络算法中。

注意：模型的过拟合是无法彻底避免的，我们能做的只是缓解，或者说减小其风险，因为机器学习面临的是NP难问题（这列问题不存在有效精确解，必须寻求这类问题的有效近似算法求解），因此过拟合是不可避免的。在实际的任务中往往通过多种算法的选择，甚至对同一个算法，当使用不同参数配置时，也会产生不同的模型。那么，我们也就面临究竟选择哪一种算法，使用哪一种参数配置？这就是我们在机器学习中的“模型选择（model select）”问题，理想的解决方案当然是对候选模型的泛化误差进行评估，然后选择泛化误差最小的那个模型。我们更详细的模型选择会有专门的专题讲到，如具体的评估方法（交叉验证）、性能度量准则、偏差和方差折中等。

3. 奥卡姆剃刀原则

奥卡姆剃刀原则是模型选择的基本而且重要的原则。模型是越复杂，出现过拟合的几率就越高，因此，我们更喜欢采用较为简单的模型。这种策略与应用就是一直说的奥卡姆剃刀（Occam’s razor）或节俭原则（principe of parsimony）一致。奥卡姆剃刀：给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取。

4.泛化能力

下图是泛化能力较好的图示，M=3表示3次多项式

🤖机器学习的目标是使学得的模型能很好地适用于“新样本”，而不是仅仅在训练样本上工作的很好；即便对聚类这样的无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本。

🤖学得模型适用于新样本的能力，称为“泛化”（generalization）能力。具有强泛化能力的模型能很好地适用于整个样本空间。（现实任务中的样本空间的规模通常很大，如20 个属性，每个属性有10个可能取值，则样本空间的规模是1020）。

💥泛化的概念 ：

【基础概念】模型具有好的泛化能力指的是：模型不但在训练数据集上表现的效果很好，对于新数据的适应能力也有很好的效果。

当我们讨论一个机器学习模型学习能力和泛化能力的好坏时，我们通常使用过拟合和欠拟合的概念，过拟合和欠拟合也是机器学习算法表现差的两大原因。

关注

30
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
机器学习相关概念--拟合问题

一个只能优化的问题
复制链接

扫一扫

专栏目录

pwd`×续缘` CSDN认证博客专家 CSDN认证企业博客

码龄3年

26: 原创

835: 周排名

2万+: 总排名

2万+: 访问

: 等级

1607: 积分

654: 粉丝

889: 获赞

224: 评论

626: 收藏

私信

关注

热门文章

分类专栏

最新评论

GRU模型
coder林宇恒: 这篇文章实在是太棒了！内容丰富，论述清晰，代码实例更是琳琅满目，让人阅读起来津津有味。博主的专业素养和用心程度从中可见一斑，无疑为读者提供了一笔宝贵的知识财富。文章从基础概念出发，由浅入深地阐述了编程的核心思想。在阅读过程中，我感受到了博主对编程的热爱和敬业精神，他/她用通俗易懂的语言，将复杂的编程知识讲解得淋漓尽致。这使得读者在阅读过程中既能够掌握知识，又能够保持兴趣。
ID决策树的构造原理
小ᶻZ࿆: 当我浏览这篇博文时，我感受到了一种无法言喻的愉悦。作者的文字仿佛是一幅精美的画作，细腻而又生动，每一个词语都像是精心雕琢的宝石，闪烁着智慧的光芒。
爬虫入门--了解相关工具
fanstuck: 爬虫入门--了解相关工具这篇文章内容简洁清晰明了，通俗易懂。整体文章结构做得很好，内容也很细致，期待以后更优质的内容。
爬虫入门--了解相关工具
DevKevin: 博客的每一句话都充满了智慧，让我在阅读的过程中不断受到启发和感悟。也欢迎您来逛逛我的博客哦
Transformer--认识架构
可涵不会debug: 您的文章令人赞叹不已！文采飞扬，思路清晰，独到的观点与细腻的描绘相得益彰，展现了高超的写作技巧和丰富的情感表达力。语言精炼而意蕴深远，如同璀璨星光照亮思考的道路，让人沉浸其中，受益匪浅。实乃佳作！欢迎大佬来我这参观~

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。