第2章（第一节）模型评估与选择

最新推荐文章于 2024-03-17 17:50:47 发布

second24

最新推荐文章于 2024-03-17 17:50:47 发布

阅读量381

点赞数 1

分类专栏：机器学习--学习笔记文章标签：机器学习经验预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/second24/article/details/74780205

版权

机器学习--学习笔记专栏收录该内容

21 篇文章 3 订阅

订阅专栏

经验误差与过拟合

通常我们把分类错误的样本数占样本总数的比例称为“错误率”。相应的精度就是用1-错误率。而误差就是学习器的实际预测输出与样本的真实输出之间的差异。“泛化误差”就是指在新样本上的误差。显然，我们希望得到泛化误差小的学习器。
我们实际希望的，是在新样本上能表现得很好的学习器。为了达到这个目的，应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”，这样才能在遇到新样本时做出正确的判别。然而，当学习器把训练样本学得“太好”了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。这种现象在机器学习中称为“过拟合”。相对的是“欠拟合”。下图给出了两种概念的类比。

这里写图片描述

然而过拟合是无法彻底避免的，我们所能做的只是“缓解”，关于这一点，可大致这样理解：机器学习面临的问题通常是NP难甚至更难，而有效的学习算法必然是在多项式时间内，运行完成，若可彻底避免过拟合，则通过经验误差最小化就能获最优解。

评估方法

留出法（未整理完）

留出法直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，即D=S并上T，S交T等于空。在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

second24 CSDN认证博客专家 CSDN认证企业博客

码龄8年

133: 原创

18万+: 周排名

47万+: 总排名

16万+: 访问

: 等级

2682: 积分

46: 粉丝

55: 获赞

15: 评论

342: 收藏

私信

关注

热门文章

分类专栏

最新评论

lintcode--402. 连续子数组求和
CSDN-Ada助手: 非常感谢博主写的关于连续子数组求和的博客，这篇文章让我更深入地了解了这个问题。我觉得下一篇博客可以继续讲解一些与数组相关的算法和数据结构，比如说动态规划、贪心算法、哈希表等等，这样的技术文章对其他用户也会非常有帮助。相信会有更多读者期待你的下一篇博客。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
PCA降维（MATLAB实践）
Romchen: 超大矩阵怎么进行计算呢
图像处理实例--图像去噪
hsj_hulifeileide: 大佬能发一份完整的源代码吗？
第5章神经网络
我超爱Debug: 你好，我去掉了后c的值也出不来，可以问一下为啥吗
图像处理实例--基于分水岭分割进行肺癌判断
苣漓: 为什么我的运行不了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。