2020-7-2 吴恩达DL学习-C3结构化ML项目-w1 ML策略1(1.7 什么时候该改变开发/测试集和指标--无法正确衡量算法间的优劣时候修改。修改的方针)-CSDN博客

本文链接：https://blog.csdn.net/weixin_42555985/article/details/107082069

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/
3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai

1.7 什么时候该改变开发/测试集和指标 When to change dev/test sets and metrics

在前面几节课中我们已经学过如何设置开发集和评估指标，就像是把目标定在某个位置，让你的团队瞄准。但有时候在项目进行途中，你可能意识到，目标的位置放错了。这种情况下，你应该移动你的目标。
在这里插入图片描述

我们来看一个例子。如上图。
假设你在构建一个猫分类器，试图找到很多猫的照片，向你的爱猫人士用户展示，你决定使用的指标是分类错误率。算法 $A$ 和 $B$ 分别有3％错误率和5％错误率，所以算法 $A$ 似乎做得更好。

现在我们实际试一下这些算法。
你观察一下这些算法，算法 $A$ 由于某些原因，把很多色情图像分类成猫了。如果你部署算法 $A$ ，那么用户就会看到更多猫图，因为它识别猫的错误率只有3%，但它同时也会给用户推送一些色情图像，这是你的公司完全不能接受的，你的用户也完全不能接受。相比之下，算法 $B$ 有5％的错误率，这样分类器就得到较少的图像，但它不会推送色情图像。所以从你们公司的角度来看，以及从用户接受的角度来看，算法实际上是一个更好的算法，因为它不让任何色情图像通过。

在这个例子中，发生的事情就是，算法 $A$ 在评估指标上做得更好，它的错误率达到3%，但实际上是个更糟糕的算法。评估指标加上开发集它们都倾向于选择算法 $A$ ，因为它们会说，算法 $A$ 的错误率较低，这是你们自己定下来的指标评估出来的。

但你和你的用户更倾向于使用算法 $B$ ，因为它不会将色情图像分类为猫。所以当这种情况发生时，你的评估指标无法正确衡量算法之间的优劣排序时，在这种情况下，你应该要改变评估指标，或者要改变开发集或测试集。

你用的分类错误率指标可以写成这样：
$Error=\frac 1{m_{dev}}\sum_{i=1}^{m_{dev}}I\{y^{(i)}_{pred}\neq y^{(i)} \}$

这个公式统计了分类错误的样本

$m_{dev}$ 是你的开发集样本数
$y^{(i)}_{pred}$ 表示预测值，其值为0或1
符号 $I$ 表示一个函数，统计出表达式为真的样本数

这个评估指标的问题在于，它对色情图片和非色情图片一视同仁，但你其实真的希望你的分类器不会错误标记色情图像。

修改这个评估指标的一个方法是，加个权重项，即：
$Error=\frac 1{m_{dev}}\sum_{i=1}^{m_{dev}}w^{(i)}I\{y^{(i)}_{pred}\neq y^{(i)} \}$

如果图片 $x^{(i)}$ 不是色情图片，则 $w^{(i)}=1$ 。如果是色情图片， $w^{(i)}$ 可能就是10甚至100。这样你赋予了色情图片更大的权重，让算法将色情图分类为猫图时，错误率这个项快速变大。在这个例子里，你把色情图片分类成猫这一错误的惩罚权重加大了10倍。
在这里插入图片描述

如果你希望得到归一化常数，在技术上，就是 $w^{(i)}$ 对所有 $i$ 求和，这样错误率仍然在0和1之间，即：
$Error=\frac 1{w^{(i)}}\sum_{i=1}^{m_{dev}}w^{(i)}I\{y^{(i)}_{pred}\neq y^{(i)} \}$
加权的细节并不重要，实际上要使用这种加权，你必须自己过一遍开发集和测试集，在开发集和测试集里，自己把色情图片标记出来，这样你才能使用这个加权函数。

粗略的结论是，如果你的评估指标无法正确评估好算法的排名，那么就需要花时间定义一个新的评估指标。这是定义评估指标的其中一种可能方式（上述加权法）。

评估指标的意义在于，准确告诉你已知两个分类器，哪一个更适合你的应用。就本课程的内容而言，我们不需要太注重新错误率指标是怎么定义的，关键在于，如果你对旧的错误率指标不满意，那就不要一直沿用你不满意的错误率指标，而应该尝试定义一个新的指标，能够更加符合你的偏好，定义出实际更适合的算法。

你可能注意到了，到目前为止我们只讨论了如何定义一个指标去评估分类器，也就是说，我们定义了一个评估指标帮助我们更好的把分类器排序，能够区分出它们在识别色情图片的不同水平，这实际上是一个正交化的例子。

我想你处理ML问题时，应该把它切分成独立的步骤。

第一步是弄清楚如何定义一个指标来衡量你想做的事情的表现，然后我们可以分开考虑如何改善系统在这个指标上的表现。所以定义你要瞄准的目标，这是完全独立的一步，你可以把它看成是一个单独的旋钮，可以调试算法表现的旋钮。如何精确瞄准，如何命中目标，定义指标是第一步。

然后第二步要做别的事情，在逼近目标的时候，也许你的学习算法针对如下长这样的成本函数优化
$J=\frac 1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})$
你要最小化训练集上的损失。引入权重，也许最后需要修改归一化常数m，即：
$J=\frac 1{\sum w^{(i)}}\sum_{i=1}^mw{(i)}L(\hat y^{(i)},y^{(i)})$