小白科研笔记：从MSE Loss到Cross-Entropy Loss到Focal Loss再到Circle Loss

最新推荐文章于 2023-11-19 23:19:42 发布

Niuip

最新推荐文章于 2023-11-19 23:19:42 发布

阅读量2.6k

点赞数 8

分类专栏： computer vision论文代码分析

本文链接：https://blog.csdn.net/qq_39732684/article/details/105794637

版权

computer vision论文代码分析专栏收录该内容

43 篇文章 41 订阅

订阅专栏

1. 前言

这篇博客讨论分类问题的误差损失函数。对于二分类问题，真值标签记为 $y_i=\{0,1\}$ 。对于多分类问题，真值标签记为 $y_i=(0,...,0,1,0,...,0)^T$ 。在该向量中，只允许有一个 $1$ 出现。这种标记方法记为One-Hot向量。对于二分类问题，使用Sigmoid函数做输出。对于多分类问题，使用Softmax做输出。这是分类问题约定俗成的基本知识。

2. 从MSE损失函数到Cross-Entropy损失函数

Cross-Entropy的讲解可以参考这篇博客。首先讨论二分类问题。设第 $i$ 个物体的标签是 $y_i=\{0,1\}$ 。 $y_i=1$ 表示该物体属于 $A$ 类， $y_i=0$ 表示该物体不属于 $A$ 类。假定我们训练一个网络用语预测该物体的分类，预测结果是 $p_i\in[0,1]$ 。怎样设计一个损失函数，让网络正确完成分类任务呢？可以直观地设计一个MSE损失函数：

$L_{mse,i} = \frac{1}{2}(y_i - p_i)^2$

假定网络经过一个全连接层预测出 $p_i$ 的，那么 $p_i = \sigma(Wx+b)$ 。对于二分类问题，要规范输出分布在 $[0, 1]$ 之间，所以需要使用Sigmoid函数，即函数 $\sigma(\cdot)$ 是Sigmoid函数。训练网络需要对误差做反向传播，即需要计算偏导数 ${\partial L_{mse,i}}/{\partial W}$ ：

${\partial L_{mse,i}}/{\partial W} = (y_i-p_i)\sigma '(Wx+b)x$

Sigmoid函数的导数很有特点： $\sigma'(x)=\sigma(x)\cdot(1-\sigma(x))$ ，于是上式可以写为下式：

${\partial L_{mse,i}}/{\partial W} = (y_i-p_i)\sigma(Wx+b)\cdot(1-\sigma(Wx+b))x$
${\partial L_{mse,i}}/{\partial W} = (y_i-p_i)p_i(1-p_i)x$

可以发现，当 $\sigma(Wx+b)=0,1$ 的时候，偏导数会等于零，造成梯度消失。在网络训练的初始阶段，因为参数是随机初始化的，所以 $W x + b$ 很可能会输出一些很大或者很小的数值，就这会造成 $\sigma(Wx+b)$ 接近于零或者一，使得梯度消失，造成网络训练的困难。

因此分类问题不会去使用MSE损失函数。研究者们则采用Cross-Entropy损失函数。具体原因下面会有讨论。它的定义如下所示：

$L_{ce,i} = -[y_i\log(p_i) +(1-y_i)\log(1-p_i)]$

初次看到这种形式会觉得奇怪。我做一些说明。当 $y_i=1$ 的时候，即该目标属于 $A$ 类，此时损失函数变为： $L_{ce,i}=-\log(p_i)$ 。为了使 $L_{ce,i}\rightarrow 0$ ， $p_i\rightarrow 1$ 。同理，当 $y_i=0$ 的时候，即该目标不属于 $A$ 类，此时损失函数变为： $L_{ce,i}=-log(1-p_i)$ 。为了使 $L_{ce,i}\rightarrow 0$ ， $p_i\rightarrow 0$ 。因此Cross-Entropy损失函数是有意义的。

好的，接下来计算反向传播的偏导数。为了方便理解，这里分情况讨论问题。

当 $y_i=1$ 的时候， $L_{ce,i}=-\log(p_i)$ 。偏导数 ${\partial L_{ce,i}}/{\partial W}$ 是：

${\partial L_{ce,i}}/{\partial W}=-{1}/{p_i}\cdot p_i(1-p_i)x=-(1-p_i)x$

当 $y_i=0$ 的时候， $L_{ce,i}=-log(1-p_i)$ 。偏导数 ${\partial L_{ce,i}}/{\partial W}$ 是：

${\partial L_{ce,i}}/{\partial W}=1/(1-p_i)\cdot p_i(1-p_i)x = -(0-p_i)x$

统一上述的推导，我们可以得到：

${\partial L_{ce,i}}/{\partial W}= -(y_i-p_i)x$

从这个偏导数可以看出，它非常简洁，避免了使用Sigmoid带来的梯度消失问题。然而Cross-Entropy函数在用于多分类问题的时候，会出现一些问题，可以参考这篇博客。

3. 从Cross-Entropy损失函数到Focal Loss损失函数

Focal Loss的讲解可以参考这篇博客和知乎笔记。Focal Loss主要解决分类问题中，正负样本不均衡的现象。还是以二分类问题作说明。设总数据集的损失函数是 $L$ ，使用Cross-Entropy后，它可以表示为：

$L=\sum_{i=1}^N L_{ce,i}=\sum_{i=1}^N -[y_i\log(p_i) +(1-y_i)\log(1-p_i)]$

记正样本的个数是 $N_p$ ，负样本的个数是 $N_n$ ，有 $N_p+N_n=N$ 。 $L$ 可以改写为：

$L=L_p+L_n=\sum_{i=1}^{N_p} -log(p_i) + \sum_{j=1}^{N_n}-\log(1-p_j)$

假设正样本的数量远大于负样本的数量，那么对于训练器而言，最小化 $L_p$ 的重要性远远大于最小化 $L_n$ 。于是训练器可能会拼命地减小 $L_p$ 而去忽视 $L_n$ ，这就会造成负样本识别率很低。比如，我们设计一个癌症分类算法。数据集中是正常人群远大于患病人群的，但是显然我们只去关心识别病患的准确率，而不是正常人的准确率。所以Cross-Entropy会面临困境。同理，当负样本的数量远大于正样本数量的时候，同样的问题也会出现。

为了解决这个问题，Focal Loss便应运而生。

先总结一下Cross-Entropy的表达式：

$L_{ce,i}=\left\{ \begin{aligned} &-\log(p_i),&y_i=1 \\ &-\log(1-p_i), &y_i=0\\ \end{aligned} \right.$

先来看第一个修改版本：

$L_{a,i}=\left\{ \begin{aligned} &-\alpha\log(p_i),&y_i=1 \\ &-(1-\alpha)\log(1-p_i), &y_i=0\\ \end{aligned} \right.$

参数 $\alpha \in(0,1)$ 用于衡量正负样本之间的权重。如果 $\alpha \rightarrow 0$ ，表示正样本的误差不重要，而负样本的误差很重要。同理，如果 $\alpha \rightarrow 1$ ，表示正样本的误差很重要。参数 $\alpha$ 的引用解决了正负样本之间不均衡的情况。 $\alpha$ 应该跟正负样本之间的数量比例相关。如果正样本和负样本的比例是 $3 : 1$ 的话， $\alpha=1/4=0.25$ 。

在分类问题中，除了解决正负样本不均衡的情况，还需要解决容易样本/困难样本的不均衡的情况。还是以正样本举例子。对于容易分类的正样本，网络的输出很容易到达 $p_i=0.9$ ；然而对于困难分类的正样本，网络的输出可能仅仅是 $p_i=0.5$ ，或者更低。如果数据集中容易的样本数远大于困难样本，网格更偏向于处理容易分类的样本。

为了解决这个问题，Focal Loss的完整表述如下所示：

$L_{focal,i}=\left\{ \begin{aligned} &-\alpha(1-p_i)^\gamma\log(p_i),&y_i=1 \\ &-(1-\alpha)p_i^\gamma\log(1-p_i), &y_i=0\\ \end{aligned} \right.$

$\gamma$ 是权重因子。为了便于理解，咱们先把上述公式中的 $\alpha$ 去掉。令 $\gamma=2$ 。对于一个容易分类的正样本，网络的输出是 $p_i=0.9$ ，它的Cross-Entropy误差是 $-\log(0.9)=0.105$ 。它的Focal loss误差是 $0.1^2\log(0.9)=0.00105$ ，缩小了100倍。可见 $\gamma>1$ 会削弱容易分类样本的损失函数。因此实际分类中会让 $\gamma>1$ 。

最后看一下Focal-Loss函数的反向传播的求导过程。在这里就简单分析一个情况吧。当 $y_i=1$ 的时候， $L_{focal,i}=-\alpha(1-p_i)^\gamma\log(p_i)$ 。偏导数 ${\partial L_{focal,i}}/{\partial W}$ 是：

${\partial L_{focal,i}}/{\partial W}=\alpha\gamma(1-p_i)^{\gamma-1}\log(p_i)\cdot p_i(1-p_i) -\alpha(1-p_i)^\gamma\cdot p_i^{-1}\cdot p_i(1-p_i)$
${\partial L_{focal,i}}/{\partial W}=\alpha\gamma(1-p_i)^\gamma\log(p_i)p_i-\alpha(1-p_i)^{\gamma+1}$

按照之前的分析，Focal Loss不会在网络训练的初始阶段出现梯度消失情况。

4. 多目标分类

在讲解Circle Loss之前，咱们先做点热身，讨论一下多分类情况。首先多分类输出是用SoftMax函数，一般情况下多分类问题的误差损失函数依然是Cross-Entropy函数。记样本的总数为 $N$ 个，分类目标是 $A_1,...,A_M$ ，分类目标个数是 $M$ 个。对于第 $i$ 个样本来说，网络的输出是 $p_{i,0},...,p_{i,M}$ 。记网络在SoftMax层之前的输出是 $q_{i,0},...,q_{i,M}$ 。 $q_{i,k}=W_kx_i+b_k$ 。根据SoftMax定义， $p_{i,k}$ 的计算方式如下所示：

$p_{i,k}=\exp(q_{i,k})/\sum_j^M\exp(q_{i,j})$

在 $p_{i,0},...,p_{i,M}$ 中，如果 $p_{i,a}$ 是其中最大的，那么第 $i$ 个样本属于第 $a$ 类。接下来讨论多分类情况下的Cross-Entropy损失函数。设 $y_{i,0},...,y_{i,M}$ 是 $p_{i,0},...,p_{i,M}$ 对应的真值标签。按照刚才这个例子，只有 $y_{i,a}=1$ ，对于其他的则都是零。关于第 $i$ 个样本的Cross-Entropy损失函数定义如下所示：

$L_{ce,i}=-\sum_{j}^M y_{i,j}\log(p_{i,j})$

总误差函数则定义为：

$L=\sum_i^N L_{ce,i} = -\sum_i^N\sum_{j}^M y_{i,j}\log(p_{i,j})$

迁移上一节学习到的Focal Loss知识，多分类的Focal Loss误差损失函数如下所示：

$L_{focal,i}=-\sum_{j}^M \alpha_j\cdot (1-p_{i,j})^{\gamma_j}\cdot y_{i,j}\log(p_{i,j})$

其中 $\sum_{i=1}^M\alpha_i=1$ 。使用SoftMax后，Cross-Entropy损失函数的导数形式也是比较简单的。这里就不做推到啦。如果对于第 $i$ 个样本，它的分类真值是第 $k$ 类，那么 $L_{focal,i}$ 可以变形为：

$L_{focal,i}=- \alpha_k\cdot (1-p_{i,k})^{\gamma_k}\cdot \log(p_{i,j})$

Cross-Entropy损失函数就变为如下所示：

$L_{ce,i}=-\log(p_{i,k})$

看上去这些公式都很简洁的。

我们做个小扩展哈。对于二分类问题，激活函数是Sigmoid函数，即 $p_{i}=\sigma(Wx_i+b)$ 。 $L_{ce,i}$ 可以进一步写为：

$L_{ce,i}=-\log(1/(1+\exp[-(Wx_i+b)]))=\log(1+\exp[-(Wx_i+b)])$

请记住这种误差表述形式： $L_i=\log(1+\exp(\Delta))$ 这种形式。 $\Delta$ 是一个复杂的表达式，在后续会接着讨论。

5. 从Cross-Entropy损失函数到Circle Loss

Circle Loss是一篇CVPR2020的文章。原文太复杂了，不方便我等小白阅读。在这篇博客，咱只讨论一个多分类情况。一共有 $M$ 个类别，标记为 $A_1,...,A_M$ 。还是以第 $i$ 个样本为例子，假定它的标签是 $A_k$ 。SoftMax的函数标记为 $S(\cdot)$ 。网络的输出是 $O_i=S(Wx_i+b)$ ，其中 $O_i\in \textbf R^M$ 。

一切都正常。接下来咱讨论类内（Within Class）和类间（Between Class）的概念。学过模式识别的话，对这个概念不会太陌生。假定大家都理解这个概念哈。在多分类问题中，类内和类间如何去定义呢？

我不想说得太抽象。我会举两个例子。

例子一：基于欧式空间对类内类间的定义。第 $i$ 个样本的标签是 $A_k$ ，one-hot形式表示的话就是 $1_k=(0,...,0,1,0,...,0)^T$ ， $1$ 唯一地出现在第 $k$ 列。类内距离定义为： $s_p(i)=\Vert O_i - 1_k\Vert_2$ 。类间距离定义为： $s_n^j(i)=\Vert O_i - 1_j\Vert_2(j\not= k)$ 。距离度量换成马氏距离/曼哈顿距离都是可以的。

例子二：基于余弦/向量积对类内类间的定义。对于两个单位向量，常常用它们之间的夹角来衡量两单位向量之间的相似性。它们之间的夹角正比于余弦夹角，而余弦夹角就是两向量的向量积。因此可以用向量积度量单位向量间的相似性。 $1_k$ 是单位向量。 $O_i$ 不一定。使用正交化处理一下： $O_i=O_i/\Vert O_i\Vert_2$ 。类内距离定义为： $s_p(i)=O_i^T1_k$ 。类间距离定义为： $s_n^j(i)=O_i^T1_j(j\not= k)$ 。

注释：对于基于欧式空间对类内类间的定义，输出值趋于零表示两个类越接近；对于基于余弦/向量积对类内类间的定义，输出值区域1表示两个类越接近。正好是相反的。

在Circle Loss这篇论文中，作者倾向于使用基于余弦/向量积对类内类间的定义。这种使用可追溯到一些经典的人脸检测的损失函数设计论文。这里不去细讲。下面的讨论以基于余弦/向量积对类内类间的定义为主。

一切都还好。对于多分类问题，自然是希望网络的输出 $O_i$ 尽可能地接近真值 $1_k$ ，并尽可能地远离其他类 $1_j(j\not= k)$ 。翻译成数学语言，就是 $s_p(i) \rightarrow 1$ ， $s_n^j(i) \rightarrow 0(j=1,...,M;j\not = i)$ 。

前方高能。Circle Loss提出一个统一的（Unified）误差函数模型，如下所示：

$L_{un,i} = \log(1+\sum_{j\not=i}^M\exp[\gamma(s_n^j(i)-s_p(i)+m)])$

初次看到这个表达式无疑会一脸懵比。但是我们注意到它属于 $L_i=\log(1+\exp(\Delta))$ 这一类型，进而就知道它是SoftMax和Cross-Entropy的公式推导最终的形式。貌似 $s_n^j(i)-s_p(i)+m)$ 这种奇怪的形式让人难以接受。

我们顺藤摸瓜想一想。训练器的最终目的是让 $L_{un,i}\rightarrow 0$ ，这等价于 $(s_n^j(i)-s_p(i)+m) \rightarrow -\infty$ 。对于余弦距离来说，这肯定是达不到的。自然是期望 $s_p(i) \rightarrow 1$ ， $s_n^j(i) \rightarrow 0(j=1,...,M;j\not = i)$ 。此时达到最小： $(s_n^j(i)-s_p(i)+m) \geq (-1+m)$ 。从数学角度讲， $m$ 的设置貌似没什么意义，就放在哪里不去管它（想象一下QQ中摊手那个表情）。 $\gamma$ 就是个普通的调节系数。至此， $L_{un,i}$ 的结构算是理清楚了。