从softmax到ArcFace

最新推荐文章于 2022-08-02 10:05:17 发布

杯酒和雪

最新推荐文章于 2022-08-02 10:05:17 发布

阅读量763

点赞数 1

分类专栏：深度学习文章标签：深度学习人脸识别

本文链接：https://blog.csdn.net/hu378910532/article/details/105419866

版权

深度学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

人脸识别

0 篇文章 0 订阅

订阅专栏

0. softmax
$\sigma_i(z)=\frac{e^{z_i}}{\sum_{j=1}^{m}e^{z_j}}$

其中， $e^x$ 的作用：

对 $x$ 取exp变为非负数，避免正负值抵消
更容易达到终极目标one-hot形式，或者说，softmax降低了训练难度，使得多分类问题更容易收敛。 Softmax鼓励真实目标类别输出比其他类别要大，但并不要求大很多。（参考链接： https://zhuanlan.zhihu.com/p/34404607 ）

1. softmax loss
$L_1 = - \frac{1}{m}\sum_{i=1}^{m}log\frac{e^{W^T_{y_i}x_i+b_{y_i}}}{\sum_{j=1}^{n} e^{W_j^Tx_i + b_j}}$

其中，特征的维度 $d$ 为512， $m$ 是batch size； $n$ 是 class number； $x_i\in \mathbb{R}^d$ 表示第 $i$ 个输入样本，属于 $y_i$ 类；

$W_j\in \mathbb{R}^{d}$ 表示最后一层全连接层的权重 $W\in \mathbb{R}^{d\times n}$ 的第 $j$ 列， $b\in \mathbb{R}^n$ 是偏置项。

缺点： softmax loss 没有显式66的优化features，使其对正配对的相似度评分更高，负配对的相似度评分更低，从而导致性能不高。

2.权重归一化 A-Softmax loss

权重归一化做了两件事情(1) $b_j=0$ (2) $W_j^Tx_i=||W_j||\ ||x_i||\ cos\theta_j$ ,并应用L2 normalization使得 $W_j||=1$ ，这样做的好处是前向过程不再关注权重，仅仅关注特征向量和权重的夹角和特征向量两个因素。
$L_2=-\frac{1}{m}\sum_{i=1}^{m}log\frac{e^{||x_i||cos\theta_{y_i}}}{e^{||x_i||cos\theta_{y_i}}+\sum_{j=1,j\ne y_i}^{n}e^{||x_j||cos\theta_j}}$
在SphereFace的论文中，权重的L2normalization仅仅有了一点点提升。

3.角度乘数margin

在 SphereFace 中，角度的margin放在了角度的乘数上
$L_3=-\frac{1}{m}\sum_{i-1}^{m}log\frac{e^{||x_i||cos(m\theta_{y_i})}}{{e^{||x_i||cos(m\theta_{y_i})}}+\sum_{j=1,j\ne y_i}^{n}||x_j||cos\theta_j}$
其中， $\theta_{y_i}\in[0,\pi/m]$ ，为了去除取值范围的限制，论文提出了使用分段单调函数替代 $cos(m\theta_{y_i})$ ,该函数 $\psi(\theta_{y_i})$ 公式为：
$L_4=-\frac{1}{m}\sum_{i=1}^{m}log\frac{e^{||x_i||\psi(\theta_{y_i})}}{e^{||x_i||\psi(\theta_{y_i})}+\sum_{j=1,j\ne y_i}^{n}e^{||x_j||cos\theta_j}}$
其中， $\psi(\theta_{y_i})=(-1)^kcos(m\theta_{y_i})-2k, \ \theta_{y_i}\in[\frac{k\pi}{m}, \frac{k\pi+1}{m}], k\in[0,m-1], m\ge1$ ；m是个整数并且表示了角度margin。然而，在SphereFace实现的过程中，加入了softmax的监督，并引入了超参数 $\lambda$ 来动态的控制权重。
$\psi(\theta_{y_i})=\frac{(-1)^kcos(m\theta_{y_i}) - 2k + \lambda cos(\theta_{y_i})}{1+\lambda}$
训练初始的时候 $\lambda$ 设置为1000，最后减小到5来保证角空间的相对收缩。引入了超参数增加了训练的复杂性。

4. 特征归一化 AM-Softmax loss

特征归一化的操作在人脸比对验证过程中被广泛使用。
L2 normalization是超球面度量学习的重要步骤

应用L2 normalization $使得||x_i||=1$ ，然后乘以一个缩放系数 $s$ ,这里的 $s$ 就是超球面的半径。在论文中人脸识别模型训练过程中 $s = 64$ ，基于权重归一化和特征归一化我们可以得到 $W_{j}^{T}=cos(\theta_j)$ .

如果特征归一化应用到SphereFace上，则可以得到对应的形式SPhereFace-FNorm：
$L_5=-\frac{1}{m}\sum_{i=1}^{m}log\frac{e^{s\psi(\theta_{y_i})}}{e^{s\psi(\theta_{y_i})}+\sum_{j=1,j\ne y_i}^{n}e^{scos\theta_j}}$
5. 添加cosine margin Arcface loss

在《Additive margin softmax for face verification》一文中，m被移到了 $cos\theta$ 的外面，因此提出了cosine margin loss function：
$L_6=-\frac{1}{m}\sum_{i=1}^{m}log\frac{e^{s(cos\theta_{y_i}-m)}}{e^{s(cos\theta_{y_i}-m)}+\sum_{j=1,j\ne y_i}e^{cos\theta_j}}$
在paper中，m=0.35，这样修改有3个优点：

非常容易实现，不需要复杂的超参数
结构更清晰，不需要Softmax监督即可收敛
性能明显提高

6. 添加角度margin

虽然，cosine margin从余弦空间到角空间是一对一的映射，但这两个边界之间仍然存在差异。与余弦边距相比，角边距有更清晰的几何解释，角空间中的边距对应于超球面流形上的弧距。

具体做法是，增加角度margin在cos函数里面，因为 $cos(\theta+m)$ 小于 $cos(\theta)$ ( $\theta\in [0,\pi-m]$ ),所以分类的约束效果会更加强烈。ArcFace loss公式：
$L_6=-\frac{1}{m}\sum_{i=1}^{m}log\frac{e^{s(cos(\theta_{y_i}+m))}}{e^{s(cos(\theta_{y_i}+m))}+\sum_{j=1,j\ne y_i}e^{cos\theta_j}}$
如果我们分解 $cos(\theta+m)$ ,可以得到 $cos(\theta+m)=cos(\theta) cos(m)-sin(\theta) sin(m)$ ,这其实与 $cos\theta-m$ 类似，但是不同的是 $sin(\theta )$ 是动态的。

参考链接：
https://www.groundai.com/project/arcface-additive-angular-margin-loss-for-deep-face-recognition/1

杯酒和雪

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从softmax到ArcFace

0. softmaxσi(z)=ezi∑j=1mezj\sigma_i(z)=\frac{e^{z_i}}{\sum_{j=1}^{m}e^{z_j}}σi(z)=∑j=1mezjezi其中，exe^xex的作用：对xxx取exp变为非负数，避免正负值抵消更容易达到终极目标one-hot形式，或者说，softmax降低了训练难度，使得多分类问题更容易收敛。 Soft...
复制链接

扫一扫