30. 高偏差时的学习曲线 翻译自 吴恩达新书-Machine Learning Yearning

吴恩达新书《机器学习年鉴》中文版单页版本

吴恩达新书《机器学习年鉴》全书目录导航

机器学习:让机器学会打游戏系列教程(含视频)

假设你的模型开发错误率图形如下图所示:
开发错误率曲线
我们之前说过,如果开发错误率的曲线变平了,则仅仅添加数据,可能无法让你的算法到达预期的水平。

但是很难知道红色的曲线接下来的走势会是什么样子。如果开发样本集中的样本数量特别少,则就更加无法肯定曲线的走势了,因为开发样本集可能会有些干扰数据。

加入我们把训练误差率也绘制出来:
加入训练错误率曲线
现在,你可以十分确信,添加数据并不会起到效果了。为什么呢?记住我们的两项观察结论:

  • 由于添加了更多的训练数据,训练错误率应该会有所增加,因此蓝色的曲线的高度应该不变或者变得更高。因此它会远离我们期望的水平(绿色的曲线)。
  • 红色的开发错误率通常会高于蓝色的训练错误率。因此当训练错误率高于期望水平时,在怎么增加数据,也无法让开发错误率降低到期望的水平以下。

通过查看绘制在同一图形中的开发错误率曲线和训练错误率曲线,可以让我们更加确信开发错误率的图形走势。

为方便讨论,假设期望的水平就是我们预估的最优错误率。上面的例子是个标准的“教科书式”高偏差的例子:在最大的训练样本集下,训练错误率和预期水平还有很大差距,这预示着算法有很大的可避免偏差。而且,训练错误率曲线和开发错误率曲线很接近,说明偏差很小。

之前,我们计算的训练错误率和开发错误率,只是这个图形最后端的部分,也就是我们使用所有数据的情况。绘制完整的学习曲线,可以让我们更全面地了解,算法在不同大小训练集下的性能表现。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费?.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值