30 解释学习曲线：偏差很高（30 Interpreting learning curves_ High bias）

最新推荐文章于 2024-03-27 16:42:23 发布

明月几时有.

最新推荐文章于 2024-03-27 16:42:23 发布

阅读量402

点赞数 1

分类专栏：机器学习渴望文章标签： machine learning 学习曲线

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35576881/article/details/85050992

版权

机器学习渴望专栏收录该内容

14 篇文章 1 订阅

订阅专栏

假设开发集损失曲线是这样的：

我们之前说过，如果开发集损失曲线变成了水平的，增加数据并不能获得期望的性能。

但是很难确切地推断出红色曲线应该长成什么样子。如果开发集很小，曲线中可能有噪音就更加不能确定曲线的样子了。
假设我们将训练集损失加到上图中：

现在可以绝对确定增加数据本身并不足以改善算法性能。为什么会这样？回忆一下我们之前的两个发现：

随着我们增加训练数据，训练集损失只会更高。因此，蓝色的线会保持不变或者升高。这样的话，蓝色线只能更加远离绿色线，也就是远离期望的性能。
红色线通常在蓝色线上方，当训练集损失超过了期望值（注：蓝色线在绿色线上方）时，增加训练数据根本没法将红色线降到绿色线的水平（注：开发集损失曲线不能穿越训练集损失曲线，到达绿色钱）。

在同一张图上观察开发集和测试集损失曲线，将帮助我们更加有信息地推测开发集损失曲线的走向。

为了方便讨论，假设期望性能是我们估计的最优错误率，上图是一个标准的教科书式的高偏差（可消除的）学习曲线，在训练集达到最大时-我们拥有的所有数据-训练集损失和期望损失之间的间距很大，这就是可以消除的偏差。
更进一步，训练集曲线和开发集曲线之间的间距很小，表明方差小。

我们在之前只在该图的最右方端点度量训练集，开发集误差，最右的点代表使用了所有数据。绘制完整的学习曲线使我们更全面地了解算法在不同训练集大小上的性能。

明月几时有.

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
30 解释学习曲线：偏差很高（30 Interpreting learning curves_ High bias）

假设开发集损失曲线是这样的：我们之前说过，如果开发集损失曲线变成了水平的，增加数据并不能获得期望的性能。但是很难确切地推断出红色曲线应该长成什么样子。如果开发集很小，曲线中可能有噪音就更加不能确定曲线的样子了。假设我们将训练集损失加到上图中：现在可以绝对确定增加数据本身并不足以改善算法性能。为什么会这样？回忆一下我们之前的两个发现：随着我们增加训练数据，训练集损失只会更高。因此，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。