【CS231n】斯坦福大学李飞飞视觉识别课程笔记（十五）：神经网络笔记2（下）

最新推荐文章于 2021-07-19 11:34:17 发布

我是管小亮

最新推荐文章于 2021-07-19 11:34:17 发布

阅读量2.2k

点赞数 8

分类专栏： CS231n 文章标签：李飞飞 cs231n 斯坦福视觉识别课程笔记神经网络笔记视觉识别

CS231n 专栏收录该内容

21 篇文章 46 订阅

订阅专栏

【CS231n】斯坦福大学李飞飞视觉识别课程笔记

由官方授权的CS231n课程笔记翻译知乎专栏——智能单元，比较详细地翻译了课程笔记，我这里就是参考和总结。

在这里插入图片描述

【CS231n】斯坦福大学李飞飞视觉识别课程笔记（十五）：神经网络笔记2（下）

损失函数

我们已经讨论过损失函数的正则化损失部分，它可以看做是对模型复杂程度的某种惩罚。损失函数的第二个部分是数据损失，它是一个有监督学习问题，用于衡量分类算法的预测结果（即分类评分）和真实标签结果之间的一致性。数据损失是对所有样本的数据损失求平均。也就是说， $L=\frac{1}{N}\sum_iL_i$ 中， $N$ 是训练集数据的样本数。让我们把神经网络中输出层的激活函数简写为 $f=f(x_i;W)$ ，在实际中你可能需要解决以下几类问题：

分类问题是我们一直讨论的。在该问题中，假设有一个装满样本的数据集，每个样本都有一个唯一的正确标签（是固定分类标签之一）。在这类问题中，一个最常见的损失函数就是 $S V M$ （是 $W e s t o n W a t k i n s$ 公式）：
在这里插入图片描述
之前简要提起过，有些学者的论文中指出平方折叶损失（即使用 $max(0,f_j-f_{y_i}+1)^2$ ）算法的结果会更好。第二个常用的损失函数是 $S o f t m a x$ 分类器，它使用交叉熵损失：

问题：类别数目巨大。当标签集非常庞大（例如字典中的所有英语单词，或者 $I m a g e N e t$ 中的22000种分类），就需要使用分层 $S o f t m a x$ （ $H i e r a r c h i c a l S o f t m a x$ ）了（参考文献）。分层 $s o f t m a x$ 将标签分解成一个树。每个标签都表示成这个树上的一个路径，这个树的每个节点处都训练一个 $S o f t m a x$ 分类器来在左和右分枝之间做决策。树的结构对于算法的最终结果影响很大，而且一般需要具体问题具体分析。

属性（Attribute）分类。上面两个损失公式的前提，都是假设每个样本只有一个正确的标签 $y_i$ 。但是如果 $y_i$ 是一个二值向量，每个样本可能有，也可能没有某个属性，而且属性之间并不相互排斥呢？比如在 $I n s t a g r a m$ 上的图片，就可以看成是被一个巨大的标签集合中的某个子集打上标签，一张图片上可能有多个标签。在这种情况下，一个明智的方法是为每个属性创建一个独立的二分类的分类器。例如，针对每个分类的二分类器会采用下面的公式：
在这里插入图片描述
上式中，求和是对所有分类 $j$ ， $y_{ij}$ 的值为1或者-1，具体根据第 $i$ 个样本是否被第 $j$ 个属性打标签而定，当该类别被正确预测并展示的时候，分值向量 $f_j$ 为正，其余情况为负。可以发现，当一个正样本的得分小于+1，或者一个负样本得分大于-1的时候，算法就会累计损失值。

另一种方法是对每种属性训练一个独立的逻辑回归分类器。二分类的逻辑回归分类器只有两个分类（0，1），其中对于分类1的概率计算为：
在这里插入图片描述
因为类别0和类别1的概率和为1，所以类别0的概率为：

$\displaystyle P(y=0|x;w,b)=1-P(y=1|x;w,b)$ 。这样，如果 $\sigma(w^Tx+b)>0.5或者w^Tx+b>0$ ，那么样本就要被分类成为正样本（ $y = 1$ ）。然后损失函数最大化这个对数似然函数，问题可以简化为：
在这里插入图片描述
上式中，假设标签 $y_{ij}$ 非0即1， $\sigma(.)$ 就是 $s i g m o i d$ 函数。上面的公式看起来吓人，但是 $f$ 的梯度实际上非常简单： $\displaystyle \frac{\partial L_i}{\partial f_j}=y_{ij}-\sigma(f_j)$ （你可以自己求导来验证）。

回归问题是预测实数的值的问题，比如预测房价，预测图片中某个东西的长度等。对于这种问题，通常是计算预测值和真实值之间的损失。然后用 $L 2$ 平方范式或 $L 1$ 范式度量差异。对于某个样本， $L 2$ 范式计算如下：
在这里插入图片描述
之所以在目标函数中要进行平方，是因为梯度算起来更加简单。因为平方是一个单调运算，所以不用改变最优参数。 $L 1$ 范式则是要将每个维度上的绝对值加起来：

在上式中，如果有多个数量被预测了，就要对预测的所有维度的预测求和，即 $\sum_j$ 。观察第 $i$ 个样本的第 $j$ 维，用 $\delta_{ij}$ 表示预测值与真实值之间的差异。关于该维度的梯度（也就是 $\partial L_i/\partial f_j$ ）能够轻松地通过被求导为 $L 2$ 范式的 $\delta_{ij}$ 或 $sign(\delta_{ij})$ 。这就是说，评分值的梯度要么与误差中的差值直接成比例，要么是固定的并从差值中继承 $s i g n$ 。

注意： $L 2$ 损失比起较为稳定的 $S o f t m a x$ 损失来，其最优化过程要困难很多。直观而言，它需要网络具备一个特别的性质，即对于每个输入（和增量）都要输出一个确切的正确值。而在 $S o f t m a x$ 中就不是这样，每个评分的准确值并不是那么重要：只有当它们量级适当的时候，才有意义。还有， $L 2$ 损失鲁棒性不好，因为异常值可以导致很大的梯度。所以在面对一个回归问题时，先考虑将输出变成二值化是否真的不够用。例如，如果对一个产品的星级进行预测，使用5个独立的分类器来对1-5星进行打分的效果一般比使用一个回归损失要好很多。分类还有一个额外优点，就是能给出关于回归的输出的分布，而不是一个简单的毫无把握的输出值。如果确信分类不适用，那么使用 $L 2$ 损失吧，但是一定要谨慎： $L 2$ 非常脆弱，在网络中使用随机失活（尤其是在 $L 2$ 损失层的上一层）不是好主意。

当面对一个回归任务，首先考虑是不是必须这样。一般而言，尽量把你的输出变成二分类，然后对它们进行分类，从而变成一个分类问题。

结构化预测（structured prediction）。结构化损失是指标签可以是任意的结构，例如图表、树或者其他复杂物体的情况。通常这种情况还会假设结构空间非常巨大，不容易进行遍历。结构化 $S V M$ 背后的基本思想就是在正确的结构 $y_i$ 和得分最高的非正确结构之间画出一个边界。解决这类问题，并不是像解决一个简单无限制的最优化问题那样使用梯度下降就可以了，而是需要设计一些特殊的解决方案，这样可以有效利用对于结构空间的特殊简化假设。我们简要地提一下这个问题，但是详细内容就超出本课程范围。

小结

小结如下：

推荐的预处理操作是对数据的每个特征都进行零中心化，然后将其数值范围都归一化到 [-1,1] 范围之内。
使用标准差为 $\sqrt{2/n}$ 的高斯分布来初始化权重，其中 $n$ 是输入的神经元数。例如用 $n u m p y$ 可以写作：w = np.random.randn(n) * sqrt(2.0/n)。
使用 $L 2$ 正则化和随机失活的倒置版本。
使用批量归一化。
讨论了在实践中可能要面对的不同任务，以及每个任务对应的常用损失函数。