人脸识别的损失函数解读

最新推荐文章于 2024-06-17 11:46:05 发布

力拔山兮气盖世~

最新推荐文章于 2024-06-17 11:46:05 发布

阅读量1.8k

点赞数 4

分类专栏：人脸识别文章标签：人脸识别 ArcFace A-Softmax AM-Softmax 损失函数

本文链接：https://blog.csdn.net/qq_33948796/article/details/89309893

版权

人脸识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在研究自编码器提取特征做分类和生成、重建。所以细致了解人脸识别的各种损失函数！

文章目录

1、概要
2、Softmax Loss
3、Center Loss
4、A-Softmax Loss
5、L-Softmax Loss
6、CosFace Loss
7、AM-Softmax
8、ArcFace/Insight Face
9、小结一下
10、参考链接

1、概要

人脸识别：输入一张图片，进行人脸检测，再提取关键点进行人脸对齐矫正，最后提取人脸特征，进行判别这个人是谁。判别这个人是谁，本质上是分类问题。

既然牵涉到分类，分类的目的就是不同类的类间间距够大，同一类的类内距离足够小。那么我们一步一步介绍人脸识别中常用的损失函数。

2、Softmax Loss

$S o f t m a x$ ：将特征图扁平化后的输出映射到（0，1）之间，给出每个类的概率。假设最后一层特征图尺度是： $5 * 5 * 1000$ 。再将这些特征输入给扁平化为 [ $N$ X $1$ ] 个向量（这里的 $N$ 是 $5 * 5 * 1000 = 25000$ ）。下面扁平化的 [ $N$ X $1$ ] 的向量进入全连接层，全连接层的参数权重是 $W$ [ $T$ X $N$ ]（这里的 $T$ 表示分类的类别数），经过全连接层处理就会得到一个 [ $T$ x $1$ ] 的向量，但是这个向量里面都每个数值的大小都没有限制，或许是无穷大，也有可能是无穷小，均有可能。因此多分类时候，往往在全连接层后面接个 $S o f t m a x$ 层。这个层的输入是 [ $T$ x $1$ ] 的向量，输出也是 [ $T$ x $1$ ] 的向量。但是输出的每个向量都归一化到 $[0 ， 1]$ 之间。这里的 $S o f t m a x$ 输出的向量是该样本属于每一类的概率。

$S o f t m a x$ 公式：
$P_j=\frac{e^{a_j}}{\sum_{k=1}^{T}{e}^{a_k}}$
上面公式中的 $a_j$ 表示这 [ $T$ x $1$ ] 个向量中的第 $j$ 个值，而下面分母表示所有值的求和。上式成功的把 $P_j$ 归一化到 $(0 ， 1)$ 之间。优化目标：属于正确标签的预测概率最高。

下面介绍 $\ Loss$ ：
$L=-\sum_{j=1}^{T}{y_i} \ {\log{p_j}}$ 上式中的 $p_j$ 表示 $S o f t m a x$ 层输出的第 $j$ 的概率值。 $y$ 表示一个 [ $1$ x $T$ ] 的向量，里面的 $T$ 列中只有一个为1，其余为0（真实标签的那个为1，其余不是正确的为0）。这个公式有一个更简单的形式是：
$L=-\log p_j$ 其中的 $j$ 是指当前样本的真实标签。 $l o g$ 函数是个递增的函数，你预测错的概率会比你预测对的概率要大，因为前面加了一个负号。

图像分类里面常用 $\ Loss$ 。

3、Center Loss

$\ Loss$ 来自 $E C C V 2016$ 一篇论文： $\ Discriminative \ Feature \ Learning \ Approach \ for \ Deep \ Face \ Recognition$

对 $M N I S T$ 数据集进行分类，若损失函数采用上述介绍的 $\ Loss$ (因为 $\ Loss$ 能够使特征可分)，那么最后每个类别数字学出来的特征分布下图，我们可以看出类间距离还是比较小，类内距离比较大的，虽然效果很好：
在这里插入图片描述
如果损失函数采用 $\ Loss$ ，那么特征分布如下图，我们可以看出相比于 $\ Loss$ 类间距离变大了，类内距离变小了：

所以我们可以看出 $\ Loss$ 能够最小化类内距离的同时保证特征可分，来提高特征之间的可判别性！简单地说，给每一类( $l a b e l$ )定义一个类中心( $C e n t e r$ )，同一类的数据向类中心靠近，离得远要惩罚！于是 $\ Loss$ 就出现了。
$\ Loss = \frac{1}{2m}\sum_{i=1}^{m}{|x_i-c_{y_i}|_2^{2}}$ 其中 $c_{y_i}$ 表示这个样本所对应的第 $y_i$ 类别的特征中心， $m$ 表示每一个 $b a t c h$ 大小。上述公式的意义是：希望 $b a t c h$ 中的每个样本特征距离特征中心的距离的平方和越小越好，也就是负责类内差距。

那么上述的 $c_{y_i}$ 每一 $b a t c h$ 怎么确定的呢？理想情况下， $c_{y_i}$ 需要随着学习到的 $f e a t u r e$ 进行实时更新，也就是在每一次迭代的时候用整个数据集的 $f e a t u r e$ 来计算每个类的中心。但是这样时间复杂度高，于是：用 $b a t c h$ 来更新 $c e n t e r$ ，每一轮计算一下当前 $b a t c h$ 数据与 $c e n t e r$ 的距离，然后这个距离以梯度的形式叠加到 $c e n t e r$ 上。
我们下面对 $x_i$ 求导： $\frac{\partial L_{c}}{\partial x_i}=\frac{1}{m}\sum_{i=1}^{m}{(x_i - c_{y_i})}$ 这里因为每个 $b a t c h$ 的数量 $m$ 太小，那么每次更新 $c e n t e r$ 可能会引起 $c e n t e r$ 抖动。那么梯度上面加个限制 $\alpha$ ，这个值在 $0 - 1$ 之间：
$\Delta c=\frac{\alpha}{m}{\sum_{i=0}^m{}(x_i-y_{i})}$ 为了最小化类内，最大化类间，即满足特征可分和特征可判别，论文中将 $\ Loss$ 和 $\ Loss$ 结合。
在这里插入图片描述
有大牛在 $C i f a r 10$ 和 $C i f a r 100$ 上测试过 $\ Loss$ ，发现效果并不是很好，准确率明显低于单独的 $S o f t m a x$ ；在 $M N I S T$ 上测试加上 $\ Loss$ 的 $S o f t m a x$ 好于单独的 $S o f t m a x$ ；所以理解之所以 $\ Loss$ 是针对人脸识别的 $L o s s$ 是有原因的，因为人脸的中心性更强一些，即一个人的所有脸取平均值之后的人脸我们还是可以辨识是不是这个人，所以 $\ Loss$ 才能发挥作用。

4、A-Softmax Loss

$A - S o f t m a x$ 来自于 $C V P R 2017$ 。论文题目：
$\ Hypersphere \ Embedding \ for \ Face \ Recognition》$
拿图像分类来说。卷积神经网络提取特征，然后全连接层进行扁平化，再送入 $S o f t m a x$ 层实现分类。传统的 $S o f t m a x$ 很容易优化，因为它没有尽可能的扩大类间距离，缩小类内距离。

假设最后一层的输出特征向量为 $x_i$ ,它对应的标签是 $y_i$ ,那么 $S o f t m a x$ 又可以写成：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ 其中 $L_{i}=-\log p_j$ , $p_{j}=\frac{e^{a_j}}{\sum_{k=1}^{T}{e}^{a_k}}=\frac{e^{f_{y_i}}}{\sum_j{e^{f_j}}}$
那么上式 $L_{总}$ 可以表示为：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(\frac{e^{f_{y_i}}}{\sum_je^{f_j}})$ 其中 $f_{y_i}$ 可以用欧式空间的向量积来表示：
$f_{y_i}=W_{y_i}*x_i(卷积)=||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)$ 上式中 $j$ 表示类别总数，上述公式再进一步限制， $W_{y_{i}}||=1$ ，偏置 $b_{y_i}=0$ （这是一个很重的点哦）。
那么上式又变为：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{W_{y_i}*{X_i}(卷积)}}{\sum_je^{W_{j}*X_i(卷积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||W_{j}||*||x_i||*cos(\theta_{j})(乘积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||x_i||*cos(\theta_{j})(乘积)}})$ 上述公式更直白的解释为：二分类， $p_1$ 、 $p_2$ 进行分类，决策界面是 $p_1=p_2$ ，上面 $∣ ∣ W ∣ ∣$ 归一化，且偏置 $b$ 为 0,那么上述就为：
$(W_1-W_2)*x+b_1-b_2=cos(\theta_1)-cos(\theta_2)=0$ 那么我们可以得出：一个输入特征 $x_i$ 属于 $y_i$ 类，那么该 $\theta y_i$ 的角度应该比所有的其他的类都要小(因为 $cos(\theta)$ 是减函数)。

原始的 $S o f t m a x$ ，其中的 $x$ 是类别中学习的特征， $\theta$ 表示 $x$ 到 $W_i$ 的角度。小结一下：原始 $S o f t m a x$ 的目的使得 $W_1*x>W_2*x$ ，即 $∥ W 1 ∥ * ∥ x ∥ * c o s (θ 1) > ∥ W 2 ∥ * ∥ x ∥ * c o s (θ 2)$ ，从而得到 $x$ 正确的分类结果。如果我们使用 $cos(m\theta_1)>cos(\theta_2)$ 时，才判为类别1，这样我们可以看出决策函数更严格，因为这边的 $\theta_1<\frac{\theta_2}{m}$ 才会判定类别1；同理， $cos(\theta_1)<cos(m\theta_2)$ 判断为类别2，也就是 $\theta_2<\frac{\theta_1}{m}$ ，判断为类别2。很抽象，我一开始看的时候也很抽象，所以我们来个直观的解释，超球体解释：
在这里插入图片描述上面的是二维平面，下面是三维超球体解释图。

$A - S o f t m a x$ 使 $W_i||=0,{bias}_i=0$ ，所以依靠的是样本 $x$ 到 $W$ 的角度，这个角度越小就越有可能是这一类，而添加一个 $m$ 的目的：使类间的距离足够大，使类内距离足够小。也就是放大了类间的距离，也因放大了不同类之间的间隔而使类内更聚拢。

但是，原来的 $S o f t m a x$ 里面的 $\theta_{i,j}\in (0,\pi)$ ，如今 $m\theta_{i,j}\in (0,m\pi)$ 超出了向量之间的夹角函数 $c o s$ 定义域范围 $(0,\pi)$ 咋办？把 $n$ 个 $c o s$ 堆叠起来变成一个递减的连续的函数，详细见论文！

5、L-Softmax Loss

$L - S o f t m a x$ 来自于 $I C M L 2016$ 的一篇论文：
$\ Softmax \ Loss \ for \ Convolutional \ Neural \ Networks >$
$L - S o f t m a x$ 与 $A - S o f t m a x$ 的区别在于 $W_i||$ 没有归一化，偏置不必归0。 $L - S o f t m a x$ 与 $A - S o f t m a x$ 的过程类似，我简单再介绍一下：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{W_{y_i}*{X_i}(卷积)}}{\sum_je^{W_{j}*X_i(卷积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||W_{j}||*||x_i||*cos(\theta_{j})(乘积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||x_i||*cos(\theta_{j})(乘积)}})$ 上述公式更直白的解释为：二分类， $x$ 属于类别1，我们就希望 $W_1*x>W_2*x$ 。我们把它转成点积，得：
$||W_1||*||x||*cos(\theta_1)>||W_2||*||x||*cos(\theta_2)$ 那么 $L - S o f t m a x$ 将上面表达式修改为：
$||W_1||*||x||*cos(m\theta_1)>||W_2||*||x||*cos(\theta_2)$ 其中 $0<\theta_1<\frac{\pi}{m}$ 。 $m$ 值越大则学习的难度也越大。因此通过这种方式定义损失会逼得模型学到类间距离更大的，类内距离更小的特征。
在这里插入图片描述

6、CosFace Loss

来自于 $2018$ 论文：
$\ Margin \ Cosine \ Loss \ for \ Deep \ Face \ Recognition>$
$L M C L$ 从余弦的角度思考 $\ Loss$ ：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(p_i)=\frac{1}{N}\sum_{i}-\log(\frac{e^{f_{y_i}}}{\sum_je^{f_j}})$ 其中 $f_j=W_j*x=||W_j||*||x||*cos(\theta_j)$ ，其中余弦代表特征向量与权重向量的角度余弦值。

人脸识别是根据两个特征向量之间的余弦相似度计算的。这表明，特征向量 $x$ 的范数是对评分功能没有贡献，于是，通过 $L 2$ 归一化范式将 $W_j||$ 设定为1，将 $x_j||$ 设定为 $s$ ，于是 $L o s s$ 公式变成了如下：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(\frac{e^{{s*cos(\theta_{y_i},i)}}}{\sum_je^{s*cos(\theta_{j},i)}})$
接下来，作者把余弦边缘项 $m$ 加上去，与 $A - S o f t m a x$ 不同的是：此时的 $m$ 不是乘积项，而是减法。
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(\frac{e^{{s*(cos(\theta_{y_i},i)-m)}}}{{e^{s*(cos(\theta_{j},i)-m)}}+{\sum_{j\neq y_i}e^{s*(cos(\theta_{j},i)-m)}}})$ 同时满足: $W=\frac{W}{||W||}$ $s=x=\frac{x}{||x||}$ $W_j*x_i=1*1*cos(\theta_j,i)=cos(\theta_j,i)$ 所以，其特征会分布在一个超球面上。下图为二维和高维示意图：
在这里插入图片描述

7、AM-Softmax

这一部分主要参考下面链接，大牛写的特棒！https://blog.csdn.net/fire_light_/article/details/79602310。
该损失函数来自于 $2018$ 论文：
$\ Margin \ Softmax \ for \ Face \ Verification>$ 。个人感觉 $A M - S o f t m a x$ 与 $C o s - F a c e$ 撞车了，不管啦，那就解读一下上个没解释的一些问题。
首先再回顾一下 $S o f t m a x$ 和 $A - S o f t m a x$ :
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{W_{y_i}*{X_i}(卷积)}}{\sum_je^{W_{j}*X_i(卷积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||W_{j}||*||x_i||*cos(\theta_{j})(乘积)}})$
$A - S o f t m a x$ :
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{W_{y_i}*{X_i}(卷积)}}{\sum_je^{W_{j}*X_i(卷积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||W_{j}||*||x_i||*cos(\theta_{j})(乘积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||x_i||*cos(\theta_{j})(乘积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||x_i||*cos(\theta_{y_i})(乘积)}}{e^{||x_i||*cos(\theta_{y_i})(乘积)}+\sum_{j\neq y_i}e^{||x_i||*cos(\theta_{j})(乘积)}})$
上式中的 $cos(\theta_{y_i})$ 可以替换成 $(-1)^Ncos(m\theta_{y_i})-2N$ 。理由上面说明了哈！
然后 $A M - S o f t m a x$ 和 $c o s - F a c e$ 出场了，把上面的 $cos(\theta)$ 变成 $cos(\theta)-m$ 。所以式子就变成了：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(\frac{e^{{s*(cos(\theta_{y_i},i)-m)}}}{{e^{s*(cos(\theta_{j},i)-m)}}+{\sum_{j\neq y_i}e^{s*(cos(\theta_{j},i)-m)}}})$ 同时满足: $W=\frac{W}{||W||}$ $s=x=\frac{x}{||x||}$ $W_j*x_i=1*1*cos(\theta_j,i)=cos(\theta_j,i)$
好处：在于 $A - S o f t m a x$ 的倍角计算是要通过倍角公式，反向传播时不方便求导，而只减m反向传播时导数不用变化。作者认为， $A - s o f t m a x$ 是用 $m$ 乘以 $θ$ ，而 $A M - S o f t m a x$ 是用 $c o s θ$ 减去 $m$ ，这是两者的最大不同之处：一个是角度距离，一个是余弦距离。使用传统的Softmax的时候，角度距离和余弦距离是等价的，即: $cos(\theta_1)=cos(\theta_2)-->\theta_1=\theta_2$ 但是当我们试图要推动决策边界的时候，角度距离和余弦距离就有所不同了。最终的决策边界是和余弦相关的，根据cos的性质，优化角度距离比优化余弦距离更有效果，因为余弦距离相对更密集。之所以选择 $c o s θ - m$ 而不是 $c o s (θ - m)$ ，这是因为我们从网络中得到的是权重 $W$ 和特征 $x$ 的内积，如果要优化 $c o s (θ - m)$ 那么会涉及到 $a r c c o s$ 操作，计算量过大。论文里写的真棒！

8、ArcFace/Insight Face

来自于2018年论文：
$\ Additive \ Angular \ Margin \ Loss \ for \ Deep \ Face \ Recognition$ ，也叫 $\ Face$ 。这个和 $A M - S o f t m a x$ 类似，前者是余弦角度，这边是变成角度问题。这么做的原因：角度距离比余弦距离在对角度的影响更加直接。
在二分类情况下，对于类别1， $A r c F a c e$ 的边界决策函数为:
在这里插入图片描述

9、小结一下

在这里插入图片描述决策界面：

10、参考链接

力拔山兮气盖世~

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
人脸识别的损失函数解读

最近在研究自编码器提取特征做分类和生成、重建。所以细致了解人脸识别的各种损失函数！文章目录1、概要2、Softmax Loss3、Center Loss8、参考链接1、概要人脸识别：输入一张图片，进行人脸检测，再提取关键点进行人脸对齐矫正，最后提取人脸特征，进行判别这个人是谁。判别这个人是谁，本质上是分类问题。既然牵涉到分类，分类的目的就是不同类的类间间距够大，同一类的类内距离足够小。那...
复制链接

扫一扫

专栏目录