41.区分偏差、方差和数据不匹配误差 翻译自 吴恩达新书-Machine Learning Yearning

吴恩达新书《机器学习年鉴》中文版单页版本

吴恩达新书《机器学习年鉴》全书目录导航

机器学习:让机器学会打游戏系列教程(含视频)

假设⼈类可以在猫咪识别的任务中达到近乎完美的性能(约等于0%的错误率),那么,最优的错误率就约为0%。假如系统性能表现是:

  • 训练集上的错误率为1%
  • 训练开发集上的错误率为5%
  • 开发集上的错误率为5%

这种情况说明了什么?你可以看到,方差很高。之前讲到的降低方差的方法可以帮助你处理当前的情况。

现在,再假设你的算法性能如下:
-训练集上的错误率为10%
-训练开发集上的错误率为11%
-开发集上的错误率为12%

由此可以看出,你的算法在训练集上的可避免偏差很高,也就是说算法在训练集上表现很差。这时偏差处理相关的方法可以对你有帮助。

在前面的两个例⼦中,算法产生了很高的可避免偏差或是很高的方差。算法还有可能同时面对,高可避免偏差、高方差和数据不匹配当中的多个问题。例如:

  • 训练集上的错误率为10%
  • 训练开发集上的错误率为11%
  • 开发集上的错误率为20%

算法的可避免偏差很高,并且也有数据不匹配的问题。但是,算法在训练集上的方差并不高。为了更清晰理解不同类型的错误之间的相关性,我们把它们写在表格中:
问题图表
继续之前的猫咪图像检测器例子,你可以看到,在X轴上有两种不同的数据分布。在Y轴上,有3种不同类型的错误率:人类错误率、算法在已经训练过的样本上的错误率、算法在从未训练过的样本上的错误率。我们可以在表格中第⼀列填上这三种不同类型的错误率。

如果你愿意,你也可以补充表格中的后两列的内容:你可以找些人对手机上的猫咪图片进行标记,并且评估他们的错误,然后来填写右上角的表格。

你可以按照分布B选取⼀些手机上的猫咪图片,并且把它们放在训练集中,让神经网络来学习。然后你来评估在这个数据子集上,学习模型的错误率。

填写表中的这些条目,可以给你直观的感受到算法在两种不同的数据分布(分布A和分布B)上的表现。

通过了解你的算法所面临的问题,你可以更好的决策下⼀步应该专注于减少偏差,方差还是减少数据不匹配的问题。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费?.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值