30 解释学习曲线:偏差很高(30 Interpreting learning curves: High bias)

假设开发集损失曲线是这样的:

我们之前说过,如果开发集损失曲线变成了水平的,增加数据并不能获得期望的性能。

但是很难确切地推断出红色曲线应该长成什么样子。如果开发集很小,曲线中可能有噪音就更加不能确定曲线的样子了。
假设我们将训练集损失加到上图中:

现在可以绝对确定增加数据本身并不足以改善算法性能。为什么会这样?回忆一下我们之前的两个发现:

  • 随着我们增加训练数据,训练集损失只会更高。因此,蓝色的线会保持不变或者升高。这样的话,蓝色线只能更加远离绿色线,也就是远离期望的性能。

  • 红色线通常在蓝色线上方,当训练集损失超过了期望值(注:蓝色线在绿色线上方)时,增加训练数据根本没法将红色线降到绿色线的水平(注:开发集损失曲线不能穿越训练集损失曲线,到达绿色钱)。

在同一张图上观察开发集和测试集损失曲线,将帮助我们更加有信息地推测开发集损失曲线的走向。

为了方便讨论,假设期望性能是我们估计的最优错误率,上图是一个标准的教科书式的高偏差(可消除的)学习曲线,在训练集达到最大时-我们拥有的所有数据-训练集损失和期望损失之间的间距很大,这就是可以消除的偏差。
更进一步,训练集曲线和开发集曲线之间的间距很小,表明方差小。

我们在之前只在该图的最右方端点度量训练集,开发集误差,最右的点代表使用了所有数据。绘制完整的学习曲线使我们更全面地了解算法在不同训练集大小上的性能。

阅读更多
个人分类: machine learning
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭