【人脸识别】人脸识别损失函数学习笔记

最新推荐文章于 2025-03-05 02:06:43 发布

超级无敌陈大佬的跟班

最新推荐文章于 2025-03-05 02:06:43 发布

阅读量2.1k

点赞数 2

分类专栏： Deep Learning 文章标签：深度学习神经网络 tensorflow

本文链接：https://blog.csdn.net/chen1234520nnn/article/details/119055235

版权

Deep Learning 专栏收录该内容

34 篇文章

订阅专栏

一、SphereFace：A-Softmax(CVPR2017)

1.1 传统的softmax Loss(第二章中有更详细的公式解释)：

1.2 sphereface对softmax进行了两点改进：

1.2 归一化softmax Loss(NSL,Normalization Softmax Loss)

1.3 CosFace Loss(LNCL,Large Margin Cosine Loss)

2. 不同loss的分类边界分析

2.1 Softmax Loss：

2.2 NSL：Normalized Softmax Loss：

2.3 A-Softmax（SphereFace）：

2.4 CosFace. Large Margin Cosine Loss(LMCL)：

2.5 不同loss的决策边界：

3. CosFace中一些细节问题

3.1 为什么要进行feature Normalization？

3.2 特征X L2归一化到1后，为什么使用了缩放系数S？

一、SphereFace：A-Softmax(CVPR2017)

1.1 传统的softmax Loss(第二章中有更详细的公式解释)：

1.2 sphereface对softmax进行了两点改进：

1）改进1：归一化权重W，同时让bias置零；

归一化W的好处：从优化内积变为了优化角度，使训练过程中类别的决策边界只由角度theat决定，不受W的干扰；

2 ）改进2：加入margin进行约束；

之前是cos(θ1)>cos(θ2)，现在加一个margin m，变成cos(mθ1)>cos(θ2) ,这样就会约束θ1变得更小，也就是类内更加紧凑。
作者对m默认取4。

1.3 sphereface弊端

cosine函数单调性问题。如果实际优化的时候仅仅使用cos，那么需要对theat的范围进行约束以保证cos单调递减，而为了摆脱这一约束实现cnn的直接优化，实际使用的是cos的近似函数：单调递减的一个函数。

PS：这里没有细理解，就是使用一个近似的函数替代cos(theta)；

二、CosFace(CVPR2018)

large margin softmax 和 spherface的angular softmax弊端：

margin是以一种相乘cos(m*theta)的方式出现的，这样带来的一个问题就是反向传播计算比较复杂，loss优化不是很容易；再加上我们还要设置为了便于收敛的lambda，有非常多的超参数需要处理，对于训练不是很友好。

cosface的出现则是弥补了这个缺陷：

cosface是对cosine loss的结果设置margin，即cos(theta) - m，这样优化比较简单；

1 softmax loss的不同变种

1.1 原始的softmax loss：

其中： $f_{j}$ 是当前的类别权重 $W_{j}$ 和特征 x的乘积，theta为X和W的夹角，bias和以前一样置0。然后使用余弦公式的计算可以将wx+b转换一下：

1.2 归一化softmax Loss(NSL,Normalization Softmax Loss)

1）权重W进行L2归一化：分别对W和X做L2 Normalization,使其W的Norm为1；
2）特征X先归一化再缩放到固定值S：考虑到直接将X归一化为1，使得softmax的值太小会导致训练loss太大。因此，对X会再进行一次缩放，固定X为大小S。

修改后的loss如下，也称为NSL，Normalized version of Softmax Loss：

1.3 CosFace Loss(LNCL,Large Margin Cosine Loss)

引入一个余弦间隔m

上述模型只是转换了学习空间而已，由最开始的优化内积变成了现在的优化角度。但是还未达到作者想要的有鉴别力(区分度)的特征。

因此，引入一个余弦间隔(cosine margin)来对度量进行约束，让当前样本所属的类别在减去一个m之后仍然属于这个类别，即：

注意，margin的相减操作是针对cosine的，所以scale的缩放仍然放在最外层。

2. 不同loss的分类边界分析

softmax：无分类间隔;SphereFace：角度值变小时间隔也变小了；cosface：基于余弦值间隔；ArcFace：角度间隔

2.1 Softmax Loss：

softmax loss的边界函数同时依赖①权重向量的量级和权重与②样本特征向量之间的角度，所以会导致决策区域有重复。(大概意思是loss受权重W和角度thta两个因素影响)

2.2 NSL：Normalized Softmax Loss：

归一化后的softmax，决策边界只与角度有关，所以在上传中分类决策面就是一条线。

2.3 A-Softmax（SphereFace）：

A-Softmax是对角度theta进行约束，故呈现在cos(theta)的坐标中，是一个扇形页面分界区。但是A-Softmax的margin是不连续的，随着theta的降低，margin也在跟着减小，当theta等于0的时候margin甚至消失，另外，A-Softmax还需要解决非单调性问题。

2.4 CosFace. Large Margin Cosine Loss(LMCL)：

LMCL是对cosine值加margin进行约束，所以他们的分界区是类似于SVM的margin area一样的一块矩形，且margin的宽度为 $\sqrt{2}m$

2.5 不同loss的决策边界：

ArcFace中s=64、m=0.5（SphereFace和CosFace分别为1.35和0.35时性能最佳）

3. CosFace中一些细节问题

3.1 $\bigstar\bigstar\bigstar$ 为什么要进行feature Normalization？

下面是摘自原文的解释，作者的观点：

1）||X||(特征X的2范数)削弱了对余弦值的优化效果。

没有进行特征归一化的原始softmax loss会隐式学习特征向量X的L2范数(||X||)和角度的余弦值。其中，L2-范数会自适应地去学习如何让整体的损失最小，这相对于削弱了损失Loss对余弦值约束。
如果限制所有的feature都是同样大小的norm，那么整个优化过程就只依赖于余弦值来获得有区分力的特征。
(我的理解是，如果loss值只约束余弦值cosine,那么当损失值较大时，会去约束余弦值使得loss变小。但是当训练过程中||X||和余弦值cosine同时影响loss时，当loss较大，此时不会只优化余弦值，还会去优化||X||，这就相对于削弱了对余弦值的优化效果。相当于||X||分散了loss的精力T T)

2）还有一种说法：在测试过程中，一个样本的特征X是不变的，分类的决策边界只跟余弦值cosine相关，因此，训练过程中可以将特征X直接归一化。