【deeplearning.ai】Week9 最佳实践二_dev和test的准确率相差很大-CSDN博客

本文链接：https://blog.csdn.net/CsWarmSun/article/details/97272467

实践二

本周仍然是构建模型过程中遇到问题的处理、分析方法。

包括可以指明方向的错误分析，训练集与dev/test集分布不同的常态的处理，以及机器学习模型的基本结构。

错误分析是指对dev/test集中，预测错误数据进行人工分析，大概是下面的这种表。

错误数据编号	类别1	类别2	….
11	T
…			T
比率	…	…

好处是，可以找到，模型出错的原因，分别都是什么引起的。最好的地方，可以知道这些方向的优化空间，优化优先级。这是个非常非常有用的事，因为，可能只需要短短几周时间分析数据，就可以确定优化方向、分工，能为团队节省大量的时间。——尽管这个过程非常无趣。

清洗标签

这个指的是，有一部分错误是标签本身打错导致的。那怎么办呢，该不该修正？

通常策略是这样的。

这件事是一个常态，而且非常麻烦。原因是，模型通常对数据量非常饥渴，但是特定领域的数据通常不够用。很多时候，都会在训练集中尽可能塞下不是非常严格的领域数据集，数据量大当然是正确的。但这带来一个问题，训练用的数据和最终目标要预测的数据不太一样，或者说分布不同。

以下面为例，测试的是一般图片，最终确是要在移动端的图片。移动端的数据集很小，如何引入？

是这样的，我们要尽可能保证dev和test中的分布相同，所以，一般要重点关注这一部分，对于上述例子，一般是将移动端的数据集切半，一半加入训练集一半加入后面两个。

在这里插入图片描述

上图，移动端数据为10000，对半切分。

如此引入数据后会出现新的问题。假设最终结果显示，训练集和dev/test集的误差相差非常大。现在的两类数据集的区别有两个，一是前面的数据被模型跑过，后者没有，二是后者引入了全新的数据。所以两个这时有两个可能，一是两种出现了训练数据过拟合，二是新数据不匹配。

这时我们无法确定，究竟是哪一种出现了问题。于是，很自然的，我们引入了新的dev集，trian dev set，由于区分这种情况。

出误差的数据集	误差类型	分析
human-level	贝叶斯误差	天花板，无法处理…
train set	bias	训练不够，大网络，时间，优化…
train dev set	variance	方差太大，train set过拟合，正则化、增大train set…
dev set	mis-match	分布不同导致失配，见下面分析
test set	variance	dev set过拟合，增大dev