【论文笔记】Additive Margin Softmax for Face Verification

最新推荐文章于 2024-04-17 10:02:46 发布

有来有去-CV

最新推荐文章于 2024-04-17 10:02:46 发布

阅读量9.5k

点赞数 6

分类专栏： CV参考资料 CV理论知识 CV论文笔记

本文链接：https://blog.csdn.net/shaoxiaohu1/article/details/79139039

版权

CV论文笔记同时被 3 个专栏收录

17 篇文章

订阅专栏

CV理论知识

15 篇文章

订阅专栏

CV参考资料

14 篇文章

订阅专栏

提出AM-Softmax改进人脸识别中的softmax损失函数，通过增加角度间隔扩大类间距离，简化计算并提高效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考文献：

Wang F, Liu W, Liu H, et al. Additive Margin Softmax for Face Verification[J]. arXiv preprint arXiv:1801.05599, 2018.

简介

严格意义上，这篇还不算一篇正式的论文，只能算是一篇技术报告。但是谁让作者太牛呢（分别是Norm Face 和A-Softmax的一作），当然不等论文正式成型就赶紧消化一下。

之前的L-Softmax, A-Softmax引入了角间距的概念，用于改进传统的softmax loss函数，使得人脸特征具有更大的类间距和更小的类内距。作者在这些方法的启发下，提出了一种更直观和更易解释的additive margin Softmax (AM-Softmax)。同时，本文强调和讨论了特征正则化的重要性。实验表明AM-Softmax在LFW和MegaFace得到了比之前方法更好的效果。相关代码也公布在网上。

算法介绍

1. 算法流程

AM-Softmax，单看名字，就能意会它和A-Softmax有关联。之前我在博客里写过L-Softmax、A-Softmax，因此这里直接跳过这两者的介绍，直奔主题。
L-Softmax和A-Softmax均是引入了一个参数因子 $m$ 将权重 $\textbf{W}$ 和 $\textbf{f}$ 的cos距离变为 $cos(m\theta)$ ，通过 $m$ 来调节特征间的距离。与前两者类似，AM-Softmax将 $cos(\theta)$ 的式子改写为：

Ψ (θ) = c o s (θ) - m

$\Psi(\theta) = cos(\theta)-m$
上式是一个单调递减的函数，且比L-Softmax/A-Softmax所用的

Ψ(θ) $\Psi(\theta)$ 在形式和计算时更为简单。
除了将

b=0 $b=0$ ,

||W||=1 $||W||=1$ ，作者进一步将

||x||=1 $||\textbf{x}||=1$ ，最终的AM-Softmax写为：

L A M S = - 1 n \sum i = 1 n l o g e s \cdot ( c o s θ y i - m ) e s ( c o s θ y i - m ) + \sum c j = 1 , j \neq y i e s \cdot c o s ( θ j )

$L_{AMS}=-\frac{1}{n}\sum^n_{i=1}{log\frac{e^{s\cdot(cos\theta_{y_i}-m)}}{e^{s(cos\theta_{y_i}-m)}+\sum_{j=1,j\neq{y_i}}^c{e^{s\cdot cos(\theta_j)}}}}$
其中

s $s$ 是一个缩放因子，论文中固定为30。

2. 讨论

与L-Softmax/A-Softmax类似，作者也讨论了AM-Softmax的几何解释。同样的， $m$ 的取值大小也在控制着了分类边界的大小。两类分类吕，对于1类的分类边界从 $W^{T}_{1}P_0=W^{T}_{2}P_0$ 变为了 $W^{T}_{1}P_0-m=W^{T}_{2}P_0$ 。3D解释图很好看，但是之前已经贴过两次，这里就不再啰嗦了。这里写图片描述

另外，作者还讨论了什么时候该加入feature normalization。本篇论文与NormFace一样，将 $||\textbf{x}||=1$ 。在论文【1】中提到，质量较差的人脸图片的feature norm越小。在进行了feature normalizaiton后，这些质量较差的图片特征会产生更大的梯度，导致网络在训练过程中将更多的注意力集中在这些样本上。因此，对于数据集图片质量较差时，更适合采用feature normalization。后续的实验也将证明这一点。
这里写图片描述

3. 实验

与SphereFace的实验的数据设置相同，本文与其它Loss函数进行了比较，均取得了最好的结果。
这里写图片描述
值得注意的是，在LFW集上，未采用feature normalization比采用了feature normalizaiton的结果更好，作者分析是由于LFW的数据质量较高。

总结

本文在特征和权值正则化的情况下，提出了一种 additive margin Softmax，更直观也更易解释，同时也取得了比A-Softmax更好的实验结果。 $m$ 可以用乘法、减法加入softmax函数，应该也存在其它的可能来改进 $Psi(\theta)$ ；如果能够动态自适应地调节类间边界也是一个很有意思和值得讨论的课题。