30 解释学习曲线:偏差很高(30 Interpreting learning curves_ High bias)

假设开发集损失曲线是这样的:

我们之前说过,如果开发集损失曲线变成了水平的,增加数据并不能获得期望的性能。

但是很难确切地推断出红色曲线应该长成什么样子。如果开发集很小,曲线中可能有噪音就更加不能确定曲线的样子了。
假设我们将训练集损失加到上图中:

现在可以绝对确定增加数据本身并不足以改善算法性能。为什么会这样?回忆一下我们之前的两个发现:

  • 随着我们增加训练数据,训练集损失只会更高。因此,蓝色的线会保持不变或者升高。这样的话,蓝色线只能更加远离绿色线,也就是远离期望的性能。

  • 红色线通常在蓝色线上方,当训练集损失超过了期望值(注:蓝色线在绿色线上方)时,增加训练数据根本没法将红色线降到绿色线的水平(注:开发集损失曲线不能穿越训练集损失曲线,到达绿色钱)。

在同一张图上观察开发集和测试集损失曲线,将帮助我们更加有信息地推测开发集损失曲线的走向。

为了方便讨论,假设期望性能是我们估计的最优错误率,上图是一个标准的教科书式的高偏差(可消除的)学习曲线,在训练集达到最大时-我们拥有的所有数据-训练集损失和期望损失之间的间距很大,这就是可以消除的偏差。
更进一步,训练集曲线和开发集曲线之间的间距很小,表明方差小。

我们在之前只在该图的最右方端点度量训练集,开发集误差,最右的点代表使用了所有数据。绘制完整的学习曲线使我们更全面地了解算法在不同训练集大小上的性能。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值