26.训练数据集上的误差分析 翻译自 吴恩达新书-Machine Learning Yearning

吴恩达新书《机器学习年鉴》中文版单页版本

吴恩达新书《机器学习年鉴》全书目录导航

机器学习:让机器学会打游戏系列教程(含视频)

在你期待你的算法可以在开发/测试集上表现良好之前,它首先必须能够在训练集上表现出众。

在之前章节介绍的那些可以处理高偏差的方法中,我有时会采用,在训练数据集上进行误差分析,这种分析方法跟在人工观察数据集上的错误分析方法类似。当你的算法偏差很高时-也就是这个算法不适合训练集时,这样的误差分析会很有帮助。

举例来说,假设你正在开发一款语⾳识别系统,并且已经采集了⼀个训练样本集。当你的系统在这个训练集上表现的不好时,你可能会从算法表现很差的语音片段中选择约100个出来,自己用耳朵听⼀下,来找到算法主要出现了哪几类错误。跟之前在开发数据集上的错误分析类似,你可以把错误分成以下几个类别:
错误分类
在这个例⼦中,你可能会发现,你的算法对有背景噪音的训练样本很难处理。这样,你就可以专注于那些擅长处理背景噪音的方法了。

你也可以使用双重的检查,把同样的音频数据(训练集)交给人来进行标记。如果这些包含背景噪音的音频连人类也很难识别他们到底在说什么,那么要求任何的算法来正确的识别这些⾳频,就实在是太强算法所难了。我们会在之后的章节讨论,把算法性能和人类水平进行比较的好处。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费?.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值