16.清理开发和测试样本集中的错误标签翻译自吴恩达新书-Machine Learning Yearning

最新推荐文章于 2021-03-21 20:30:30 发布

maerdym

最新推荐文章于 2021-03-21 20:30:30 发布

阅读量746

点赞数

分类专栏：吴恩达-YEARNING 文章标签：吴恩达新书吴恩达新书中文版吴恩达新书中文版全吴恩达新书中文版1-52章 Machine Learning Yearning 中文版

吴恩达-YEARNING 专栏收录该内容

54 篇文章 3 订阅

订阅专栏

更多好玩的机器学习教程: 进入袋马学院领一份，全部免费?.

在误差分析过程中，你可能会发现，开发样本集中有的开样本被标记错误了。当我说“标记错误”的时候，我的意思是这些图片被人为的标记错了。即，在样本分类（x，y）中，y有一个不正确的值。例如，有一些本来不是猫的图片被错误标记成了猫，反之亦然。如果你怀疑一部分样本被标记错误，就在下图的表格中再增加一列分组，来跟踪这些被错误标记了的样本：
对错误标记的样本进行跟踪

你应该纠正开发样本集中，这些被错误标记的样本吗？请记住，开发样本集的目标是帮助你快速的评估算法，这样你可迅速区分算法A和算法B哪个更好。如果样本集中的这些被错误标记的样本影响了你对算法优劣的判断，那么就值得花费一些时间来纠正错误标签了。

例如，假设你的分类器的性能如下：

在开发样本集上的整体准确率…90%（总体错误率为10%）
标记错误的样本带来的误差………0.6%（占总错误率的6%）
其他原因导致的误差… 9.4%（占总错误率的94%）

这里，由于错误标记的样本带来的0.6%错误率相对于其他原因带来的9.4%错误率，显得不那么重要。手动纠正出错的标签当然也可以，但是通常也没有必要这么做：因为系统是10%错误率还是9.4%错误率，相差并不大。

假设你一直在改进猫咪分类器并且达到了以下性能：

整体准确率……………………98.0%（整体错误率为2.0%）
标记错误的样本带来的误差……0.6%（占总错误率的30%）
其他原因导致的误差…1.4%（占总错误率的70%）

总错误的30%因为样本标记错误导致的，对系统的准确度带来了重要的影响。这个时候，值得花时间来提升样本标签的正确性。处理被错误标记的样本将会帮助你判断一个分类器的错误率更接近于1.4%还是2%——这是一个相对显著地区别。

一开始的时候，在开发/测试样本集中，存在一些错误标签的样本通常是可以被容忍的，直到错误标记的样本数量增加到足够影响样本整体的准确性的时候，才需要关注这一问题，并对错误的标签样本进行处理。

最后一章解释了如何通过算法的提升改进错误分类，比如对狗，大型猫科动物和模糊情况的处理。你在这一章中已经了解到可以通过优化数据标签的方法对标记错误的分类进行处理。

不管你使用什么样的方法和规则来处理开发样本集中的错误标签，要记得在测试样本集中也使用同样的方法，以保证开发样本集和测试样本集满足同样的数据分布。同时修复开发样本集和测试样本集会防止出现第6章中讨论的问题–只优化了开发样本集却没有优化测试样本集，随后面对测试结果你的团队可能会备受打击。

如果你决定提高标签的质量，可以考虑双重检查的方法，不仅检查你的系统中出现的错误分类的标签，还要检查系统正确分类的标签。很有可能，原始的标签和你的学习算法在同一个样本中都出错了。如果只修复你的系统产生的分类错误的标签，会在你的系统评估中引入偏见。如果你有1000个开发样本集，你的分类器的准确率是98.0%，检查它出错的20个样本比检查正确的980个样本要容易得多。在实际的开发中，开发者很容易只检查出错的样本集，这样的确会令偏差蔓延到一些开发样本集。如果你只是对开发产品或应用感兴趣，这样的偏差是可以接受的。但是如果你想在学术论文中引用测试结果或是需要严格的无偏差保证的测试样本集中使用这些测试数据会带来很大的麻烦。