【机器学习】021_模型选择、过拟合和欠拟合

最新推荐文章于 2024-07-22 09:16:52 发布

Cyan.__

最新推荐文章于 2024-07-22 09:16:52 发布

阅读量44

点赞数

分类专栏：机器学习文章标签：机器学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yukiice/article/details/134108423

版权

机器学习专栏收录该内容

45 篇文章 1 订阅

订阅专栏

一、超参数的选择

超参数：机器学习算法中的调优参数（tuning parameters），需要人为设定

举例：梯度下降法中的学习率α；迭代次数epoch；批量大小batch-size；k近邻法中的k（最相近的点的个数）；决策树模型中树的深度；正则化系数λ等

优化：

有四种主要的策略可用于搜索最佳配置：

照看（babysitting，又叫试错）
网格搜索
随机搜索
贝叶斯优化

1. 训练误差和泛化误差：

· 训练误差：模型在训练数据上的误差

※ 泛化误差：模型在新数据上的误差（真正需要降低的）

2. 验证数据集、测试数据集

用来计算误差，调试超参数

· 验证数据集：评估模型好坏的数据集（※不能跟训练数据集混在一起）

例如，拿出一半的训练数据作为验证训练集，用来测试超参数的精度、误差——寻找合适的超参数

· 测试数据集：只用一次的数据集（新的数据）

3. K则交叉验证

· 在没有足够多的数据时，使用K则交叉验证

· 算法：

将训练数据分割为K块；

Fori = 1,...,K

· 每次使用第i块作为验证数据集调试精度，其余作为训练数据集训练模型

· 更改验证数据集和训练数据集取到的数据块，反复训练与验证

报告K个验证集误差的平均

常用：K=5或K=10

二、过拟合与欠拟合

模型容量有高低之分（如线性回归模型-低，多层感知机-高）；

数据有简单复杂之分（简单例如人工数据集，复杂如实际的复杂数据集）；

· 对于简单的数据集，就要用容量低的模型来处理，否则会过拟合。

· 对于复杂的数据集，就要用容量高的模型来处理，否则会欠拟合。

模型容量

定义：拟合各种函数的能力

· 低容量的模型难以拟合所有训练数据

· 高容量的模型可以记住所有训练数据

举例，如图所示的训练数据：

用线性回归模型会变成一条直线，拟合效果很差，导致欠拟合；

用容量过大的模型会变成折线，把噪音拟合住了，拟合效果不佳，导致过拟合；

正常情况下，应该用一条平滑的曲线拟合。

因此，首先应该尽量选择容量大的模型去拟合，进一步去减小容量以达到最优

模型容量的影响：

估计模型容量：

给定一个模型种类。有两个主要因素：

· 参数的个数

· 参数值的选择范围

数据复杂度：

· 样本个数

· 每个样本的元素个数

· 时间、空间结构

· 数据的多样性

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】021_模型选择、过拟合和欠拟合

【学习打卡】机器学习_021：主要学习了针对超参数，如何调参，如何选择合适的模型使得对数据的预测效果更好；学习了K则交叉验证来更好地利用数据集的方法
复制链接

扫一扫

专栏目录

Cyan.__ CSDN认证博客专家 CSDN认证企业博客

码龄2年

47: 原创

42万+: 周排名

9万+: 总排名

9438: 访问

: 等级

506: 积分

23: 粉丝

34: 获赞

15: 评论

38: 收藏

私信

关注

热门文章

分类专栏

Linux 1篇
机器学习 45篇
C++ 1篇

最新评论

【机器学习】044_Kaggle房价预测（机器学习模型实战）
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【机器学习】040_理解偏差与方差
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
【机器学习】041_模型开发迭代过程
白话机器学习: 内容丰富图文并茂，认真看完收获很大。思路清晰细节满满，支持大佬优质好文。
【机器学习】019_缺失值处理
CSDN-Ada助手: 恭喜你写完了第20篇博客！标题看起来非常有意思，关于缺失值处理的内容一定会对读者有所帮助。你在机器学习领域的持续创作让人佩服，真的很高兴看到你的进步。在下一步的创作中，或许可以考虑分享一些关于特征选择或者模型评估的技巧，这些主题也是非常受欢迎的。再次恭喜你，并期待你未来更多博客的发布！
【机器学习】001_监督学习与非监督学习
CSDN-Ada助手: 非常恭喜你开始了博客创作的旅程！标题看起来非常有吸引力，机器学习的内容一直备受关注。监督学习与非监督学习是机器学习中的两个重要概念，期待你能够深入探讨这两个主题，给读者带来更多的见解和启发。在下一步的创作中，或许可以考虑介绍一些具体的监督学习和非监督学习的算法或示例，这样读者能够更好地理解它们的应用和区别。再次祝贺你的第一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。