17. 将开发数据集分成人工观测数据集和模型调参数据集翻译自吴恩达新书-Machine Learning Yearning

最新推荐文章于 2020-04-09 09:55:26 发布

maerdym

最新推荐文章于 2020-04-09 09:55:26 发布

阅读量505

点赞数

分类专栏：吴恩达-YEARNING 文章标签：吴恩达新书吴恩达新书中文版吴恩达新书中文版全吴恩达新书中文版1-52章 Machine Learning Yearning 中文版

吴恩达-YEARNING 专栏收录该内容

54 篇文章 3 订阅

订阅专栏

更多好玩的机器学习教程: 进入袋马学院领一份，全部免费?.

假设你有一个很大的开发样本集，这个样本集有5000个样本，误差率是20%。这样你的算法产生了1000个错误分类。要手动检查1000个图片样本需要花费太长时间，所以我们在误差分析的时候，不使用所有的这些分类错误的样本。

在这种情况下，我将显式地将开发样本集分成两个子集，其中一个是你会手工查看的，其中一个是你不会看的。这部分手动查看的数据会被处理的更快。你可以把另一部分你不会手动查看的数据交给模型进行参数调优。
可以查看的数据

让我们继续上面的例子，在这个例子中，算法从开发样本集的5000个样本中产生了大约1000个错误样本。假设我们想要手动检查100个错误样本进行误差分析（抽取10%的错误样本）。你应该从开发样本集中随机选择10%的样本，把它们放在我们称之为 人工观测数据集（Eyeball dev set） 中，来提醒我们使用自己的眼睛人工的查看这批数据。（对于一个语音识别系统，你用耳朵来听的音频片段组成的集合，你也可以它为Ear dev set）。这个人工观测数据集有500个样本，其中约有100个在算法中被错误的标记。

开发样本集的第二个子集，称为模型调参数据集（Blackbox dev set），拥有4500个样本。你可以使用模型调参数据集来自动评估分类器的错误率。你也可以用它来选择算法或超参数调优。然而，你应该避免用自己的眼睛去看它。我们用这个词“黑盒（Block box）"是因为在这子集我们会用“黑盒”方式评估分类器。

为什么我们要显式地将分析样本集分隔成人工观测数据集和模型调参数据集？因为你会对人工观测数据集中的样本有直观的认识，你就更快的发现过拟合现象。如果你看到人工观测数据集的性能提升远高于模型调参数据集，那么你过拟合了当前的这个人工观测数据集。在这种情况下，你可能需要丢弃当前这个人工观测数据集，可以从模型调参数据集移过来更多的样本或者获取新的已标记数据，来组成新的人工观测数据集。