Additive Angular Margin Loss for Deep Face Recognition翻译笔记

最新推荐文章于 2024-08-28 09:09:13 发布

小水滴

最新推荐文章于 2024-08-28 09:09:13 发布

阅读量1.1k

点赞数 2

本文链接：https://blog.csdn.net/fr555wlj/article/details/100024927

版权

摘要

使用DCNNs进行大规模人脸识别的挑战之一是如何设置有效地损失函数来提高区分能力。在本篇论文之前有以下几种方法。在欧式空间中，中心损失通过惩罚(penalise)深度特征（deep features)与其对应的类中心之间的距离来实现类内紧性(intra-class compactness)。最近，一个流行的方向是将边缘和完善的损失函数结合(incorporate)起来，以最大程度的模拟面部类的可分性（separability).在欧式空间中，中心损失通过惩罚(penalise)深度特征（deep features)与其对应的类中心之间的距离来实现类内紧性(intra-class compactness)。最近，一个流行的方向是将边缘和完善的损失函数结合(incorporate)起来，以最大程度的模拟面部类的可分性（separability）。在这篇论文中，由于ArcFace与超球面上的测地距离（the geodesic distance on the hypersphere）有着精确的对应关系，所以ArcFace有一个精确的几何(geometric)解释.ArcFace优于目前的SOTA，并且能够轻易的实现而不需要什么计算成本。

Introduction

采用DCNN嵌入的人脸表示是人脸识别的首选方法。DCNNs将人脸图片（通常经过一个pose normalisation step）映射成一个类内距离小、类间距离大的特征。
训练DCNNs进行人脸识别的研究主要有两条主线。一部分训练一个多类别的分类器，它可以在训练集中分离不同的类别，比如用一个softmax分类器；还有直接学习嵌入（embedding）的分类器，比如triplet loss（三重损失）。基于大规模的训练数据和精密的DCNNs结构，softmax-loss-based和triplet-loss-based在人脸识别中都可以得到很棒的绩效。然而，两者都有一些缺点。对于softmax loss：（1）线性变换矩阵 $W\in R^{d*n}$ 会随着identities的数量n线性增加；（2）学习到的特征对于closed-set是可以分离的（separable），但是对于open-set的人脸识别问题分离的不够（not discriminative enough）。对于triplet loss：（1）对于大规模的数据集，face triplet存在组合爆炸（combinatorial explosion），这会导致迭代次数明显增加；（2）半硬（self-hard）样本挖掘（mining）是模型有效训练的难点。
有几个已提出的变种（variants）用来提高softmax loss的分辨能力。Wen等人提出了中心损失（Center loss）（即每个特征向量和它类中心的欧式距离），为了获得类内（intra-class）的紧凑性（compactness），而类间(inter-class)的分散性（dispersion）是通过softmax loss的联合惩罚（joint penalisation）保证的。然而，在训练时更新真正的中心（actual centres）是非常苦难的，因为在训练时可获得的面部类在急剧增加。
通过观察，在softmax loss上训练的DCNNs分类器的最后一层全连层的权重和每个面部类的中心有相似的概念，18,19的论文中提出了一个乘法角边缘损失（penalty）来同时增强类内紧凑性和类间离散性，这提升了训练模型的分辨能力。尽管Sphereface提出了角边缘这种重要的idea，但是为了计算，他们的损失函数需要一系列的近似（approximation），这会导致网络的不稳定。为了稳定训练，他们提出了一种包括标准softmax loss在内的混合损失函数。从经验上看，softmax loss控制了训练过程，因为基于整数的乘法角边缘使得目标log曲线非常陡峭（precipitous），于是阻碍了（hinders）收敛。CosFace直接添加cosine边缘惩罚到目标logit，与SphereFace相比，它获得了更好的绩效，（这里实在没有明白为什么后边跟了个but）但是承认实施起来更加简单，而且减少了从softmax loss中进行联合监督（joint supervision）的需求。

在这篇文章中，我们提出了额外角边缘损失（ArcFace）来进一步提高面部识别模型的分辨能力，以及更好的稳定模型。如图2所示，在DCNN特征和最后的全连层之间的点积运算等价于特征和权重归一化（normalisation）后的cosine距离。我们利用（utilise）反余弦（arc-cosine）函数来计算当前特征和目标权重的角度。然后，我们给目标角度添加了一个附加角边缘（additive angular），并且我们又一次通过cosine函数获得了目标logit。接着，我们通过固定特征归一化（fixed feature norm）缩放所有的logit，接下来的步骤就喝softmax loss一样了。ArcFace的优点可以总结如下：
Engaging. ArcFace利用角度和弧度在正交球面上的精确对应关系，直接优化了测地距离边缘/裕度（geodesic distance margin）。通过分析特征和权重的角度统计，我们直观的解释了在512-D空间上发生了什么。
Effective SOTA
Easy 【真的很简单！】ArcFace只需要如算法1所示的几行代码，并且能够非常简单的在基于图计算（computational-graph-based）的深度学习框架上实现，比如pytorch、TensorFlow等。并且，ArcFace不需要为了有稳定的绩效而去整合其他的损失函数，并且可以轻易地融合任何一个数据集。
Efficient 在训练时，ArcFace需要的计算成本很小，目前的GPU可以轻易地支持百万级的识别训练，而且模型并行策略可以轻易的支持更多的身份识别。

2.Proposed Approach

2.1. ArcFace

最常用的损失函数之一softmax loss的数学表达如下：
$L_1 = -\frac{1}{N}\sum_{i=1}^Nlog\frac{e^{W{^T_{y_i}+b_{y_i}}}}{\sum_{j=1}^ne^{W{^T_{y_i}+b_{y_i}}}}$
其中， $x_i\in R^d$ 表示属于第 $y_i$ 类的第i个样本的深度特征。本文将嵌入式特征维度设置为512维。 $W_j\in R^d$ 表示权重 $W\in R^{d*n}$ 的第j列， $b_j$ 表示偏置。批量大小和类的个数分别为N和n。传统的softmax loss被广泛用于深度面部识别中。然而，softmax损失函数不能明确地优化特征嵌入（feature embedding）来增强（enforce）同类样本的相似度和类间样本的离散度，这在类内样本发生大的变化（如姿势变化、年龄差距）以及大规模的测试场景时会导致深度人脸识别的绩效差距（performance gap）。
为了简化，我们将偏置固定为0。然后，我们将logit进行转化： $W_j^Tx_i=||W_j||\: ||x_i||cos\theta_j$ ,其中 $\theta_j$ 是权重 $W_j$ 和特征 $x_i$ 的角度。按照论文【18,36,37】，我们通过 $l_2$ 正则化固定了嵌入式特征 $x_i||$ ,并且将它重构为 $s$ 。 在特征和权重上的正则化步骤使得预测仅仅取决于特征和权重的角度。 学习得到的嵌入式特征于是分布在一个半径为 $s$ 的球面上。
$L_2 = -\frac{1}{N}\sum_{i=1}^Nlog\frac{e^{s·cos\theta_{y_i}}}{e^{s·cos\theta_{y_i}}+\sum_{j=1,j \neq y_i}^ne^{s·cos\theta_{y_i}}}$
由于嵌入式特征分布在超球面上的每个特征中心附近，我们在 $x_i$ 和 $W_{y_i}$ 中添加一个附加角边缘惩罚 $m$ 来同时增强类内紧凑性(compactness)和类间分离性（discrepancy).【不知道为什么】 因为在正则化的超球面中，合适的附加角边缘惩罚等价于测地距离裕度惩罚（geodesic distance margin penalty）,所以我们的给我们的方法命名为ArcFace（Arc=angular）。
$L_3 = -\frac{1}{N}\sum_{i=1}^Nlog\frac{e^{s(cos(\theta_{y_i}+m))}}{e^{s(cos(\theta_{y_i}+m))}+\sum_{j=1,j\neq y_i}^ne^{s\ cos\theta_j}}$
我们从8个包含充足样本的不同identities中选择图片，并分别用softmax loss和ArcFace loss来训练2维的嵌入式特征网络。如图三所示，softmax loss 提供了大致可分离的嵌入式特征，但是在决策边界产生了明显的模型。（noticeable ambiguity），而ArcFace loss可以明显的在最近类之间造成更明显的差距。

2.2. Comparison with SphereFace and CosFace

数值相似度（numerical similarity）. 在SphereFace，ArcFace，CosFace中，三种不同的边缘惩罚被提出。分别是乘法角边缘 $m_1$ ,额外角边缘 $m_2$ ,额外余弦边缘 $m_3$ . 从数值分析的角度看，不同的边缘惩罚，无论是添加angle还是cosine 空间，通过惩罚（penalish）target logit都会提高类内紧凑性和类间分离性。在图4b中，我们绘制了SphereFace，ArcFace和CosFace在他们最好margin设置情况下的target logit曲线。我们只展示在 $[20^{\omicron},100^\omicron]$ 之间的目标logit曲线，因为ArcFace在训练时 $W_{y_i}$ 和 $x_i$ 的角度大概从90度开始然后结束在30度左右。直观上看，在目标logit曲线中有三个影响因素：起始点，结束点，坡度（slope）。
通过整合所有的边缘惩罚，我们在一个统一的框架下实现了SphereFace，ArcFace和CosFace， $m_1,m_2,m_3$ 作为超级参数。
$L_4=-\frac{1}{N}\sum_{i=1}^Nlog\frac{e^{s(cos(m_1\theta_{y_i}+m_2)-m_3)}}{e^{s(cos(m_1\theta_{y_i}+m_2)-m_3)}+\sum_{j=2,j\neq y_i}^ne^{s\cos\theta_j}}$
如图4b所示，通过整合上述的所有margins $cos(m_1\theta+m_2)-m_3)$ ,我们可以获得其它的目标logit曲线，这也有很高的绩效。
几何差异(Geometric Difference). 尽管ArcFace和前人的研究成果在数值上有相似之处，但由于角边缘 和测地线距离（geodesic distance） 有着很好地对应性，因此提出的角边缘加性算法具有更好的几何属性。 如图5所示，我们在二分类情况下对比了不同的决策边界。提出的ArcFace在整个区间（whole interval）中有恒定的线性角裕度（angular margin）。对比之下，SphereFace和CosFace只有一个非线性的角裕度。
边缘设计上的微小差异会对训练模型造成蝴蝶效应。比如，原始的SphereFace使用退火优化（annealing optimisation）策略。为了避免在训练时产生分歧（divergence），SphereFace采用softmax的联合监督来削弱乘法边缘惩罚。 我们通过使用一个反余弦函数（而不是使用复杂的二倍角函数）实现了一个新的SphereFace版本，它的margin没有整数的要求。我们发现当 $m = 1.35$ 时，可以获得和原始SphereFace相似的绩效，而且没有任何收敛上的问题。

2.3. Comparison with Other Losses

其它损失函数可以根据特征的角度表示（the angular representation of features）和权重向量来设计。比如，我们可以在超球面上设计一个loss来增强类内紧凑性（compactness）和类间分离性（discrepancy）。如图1所示，在这篇论文中我们对比了其它三种损失。
Intra-Loss 通过减少样本和ground truth centre的角度/弧度来提高类内的紧凑性。
$L_5=L_2+\frac{1}{\pi N}\sum_{i=1}^N\theta_{y_i}$
Inter-Loss 通过增加不同中心的角度/弧度来提高类间的差异性。
$L_6=L_2-\frac{1}{\pi N(n-1)}\sum_{i=1}^N\sum_{j=1,j\neq y_i}^narccos(W^T_{y_i}W_j)$
这里的类间损失是一种特殊的情况，它采用了MHE（最小超求能量）方法。在论文【17】中，隐藏层和输出层都通过MHE进行正则化。在MHE论文中，也提出损失函数一个特殊的情况，即将SphereFace loss和MHE loss在最后一层网络中整合起来。
Triplet-loss 目标是在triplet样本中增大（enlarging）角度/弧度。在FaceNet中，欧几里得边缘被用于正则化特征中。在这里，我们通过我们特征的角表示即： $arccos(x_i^{pos}x_i)+m\leq arccos(x_i^{neg}x_i)$ 使用triplet-loss.[没太看明白，是真的汉字也看不懂了。]

3. Experiments

3.1. Implementation Details

数据集。如表1所示，我们分别将CASIA,VGGFace2，MS1MV2和DeepGlint-Face作为我们的训练数据，为了与其他模型进行公平的比较。请注意提到的MS1MV2是MS-Celeb-1M数据集的半自动改进版本。（refined version）据我们所知（To best of our knowledge)，我们是第一个在大规模面部图片注解中使用特定种族注释器的，因为边界情况（硬样本、噪声样本）非常难以弄清，如果注释者不熟悉标识。在训练中，我们研究了（explore）有效的面部验证数据集（如LFW,CFP-FP,AgeDB-30）来检查不同设置情况下的提升情况。除了最广泛使用的LFW和YTF数据集，我们还报告了ArcFace在最近的large-pose和large-age数据集（如CPLFW和CALFW）上的表现。我们还在大型图像数据集（如MegaFace,IJB-B,IJB-C和Trillion-Pairs）以及视频数据集（iQIYI-VID）上进行了广泛测试。

设置经验 对于数据处理，我们按照最近的论文，通过利用(utilising)五个面部点来生成正则化面部裁剪（112*112）。 对于嵌入式网络（embedding network），我们采用了广泛使用的CNN结构：ResNet50和ResNet100.在最后一层卷积层，我们研究了BN【论文14】-Dropout【论文31】-FC-BN的结构，最后得到一个512维的嵌入式特征（embedding feature）。在这篇论文中，我们使用（[training dataset，network structure，loss]）来帮助理解实验设置。
我们按照论文37将feature scale设置为64，选择ArcFace的角裕度 $m = 0.5$ 。这篇论文中所有的实验都是通过MXNet【论文8】实现的。我们设置batch size为512，在NUIDIA Tesla P40（24GB）GPU上训练模型。在CASIA上，学习率从0.1开始，在迭代20k次和28K次时除以10，训练过程在32K次迭代中完成。在MS1MV2上，我们在100K和160K迭代中除以学习率，在180K次的迭代中结束。我们设置动量为0.9，权重为 $5 e - 4$ . ***在测试时，我们只保持特征嵌入网络而不要全连层（ResNet50大约160MB，ResNet100大约为250MB），并且从每个正则化的面部（normalised face）提取512维的特征（8.9ms/face for ResNet50 and 15.4ms/face for ResNet100）。为了得到模板（如 IJB-B, IJB-C）和视频（如 YTF, iQIYI-VID）的嵌入式特征，我们只需简单计算模板（templates）所有图片或视频中所有帧（frame）的特征中心(feature centre). 注意，在训练集和测试集出现的重叠identities会被移除，对于所有的测试，我们只使用一次裁剪（crop）。

3.2. 损失的消融研究

在表2中，我们首先使用ResNet50研究CASIA数据集上ArcFace的角边缘设置。在我们的实验中观察到的最佳裕度是0.5。利用公式4中提到的组合边缘框架，很容易能够设置SphereFace和CosFace的裕度（分别为1.35, 0.35）来得到最优的绩效。 我们对SphereFace和CosFace的实现可以得到出色的性能，并且没有任何收敛上的困难。ArcFace在三个测试集上均实现了最高的准确率。此外，在图4b目标logit曲线的指导下，我们用整合的margin framework（部分最好的性能是CM1(1,0.3,0.2)和CM2(0.9,0.4,0.15)）进行了大量的实验。复合margin framework的性能优于单独的SphereFace和CosFace，但是受限于ArcFace的性能。
除了用margin-based方法进行比较，我们进一步对比了ArcFace和其它损失，目的是enforcing类内紧凑性（公式5）和类间差异性（公式6）。作为基线，我们选择softmax loss，然后我们观察到了权重和特征归一化后CFP-FP和AgeDB-30的性能下降。 然而，将softmax 和inter-class结合到一起只能提升一点点准确率。Triplet-loss性能优于Norm-Softmax的事实证明了提高边缘性能的重要性。然而，在triplet样本中采用边缘惩罚不如（在ArcFace中）在样本和中心插入（inserting）边缘有效。最后，我们将Intra-class，Inter-loss，Triplet-loss合并到ArcFace中，但是却并没有观察到任何提升，这令我们认为ArcFace早已经enforcing（强制执行）类内紧凑性、类间差异性和分类边缘(classification margin)。
为了对ArcFace的优越性有一个更好的理解，我们在表3中给出了在训练集（CA-SIA）和测试集（LFW）的详细角度数据。我们发现了：（1） $W_j$ 与ArcFace嵌入特征中心（14.29°）几乎同步（synchronise）,但是 $W_j$ 与Norm-softmax嵌入特征中心有着明显的偏差（deviation）（44.26°）。因此， $W_j$ 的角度不能完全代表训练数据的类间差异。另外(Alternatively)，通过训练网络计算得到的嵌入特征中心更具有代表性。(2)Intra-Loss可以有效地压缩（compress）类内变化，但也会带来更小的类间角。（3）Inter-Loss可以略微增加W（直接）和嵌入网络（间接）的类间差异，但也会增加类内角度。（4） ArcFace已经有一个非常好的类内紧凑性和类间差异性。（5）与ArcFace相比，Triplet-class有相似的（还是低一些）类内紧凑性，但是类间差异性在ArcFace之下。另外，在测试集上，ArcFace有一个更明显的margin，如图6所示。

3.3. Evaluation Results

Result on LFW,YTF. CALFW and CPLFW.LFW and YTF数据集是应用最广泛的图像和视频无约束（unconstrained）人脸验证基准(benchmark)。在这篇论文中，我们遵循使用不受限制的带标签的外部数据协议来报告性能。如表4所示，ArcFace在MS1MV2数据集上使用ResNet100进行训练后，在LFW和YTF上都已显著的优势击败了基准（如 SphereFace， CosFace），这说明了the additive angular margin penaly能够显著增强（notably enhance）深度学习特征的分辨能力，证明了ArcFace的高效性。
除了LFW和YTF数据集，我们也报告了ArcFace在最近引入的数据集上的性能（CPLFW 和 CALFW），这两个数据集有着和LFW一样的identities，但表现出更高的姿势和年龄变化。如表5所示，在所有开源的面部识别模型中，ArcFace模型是排名最好的面部识别模型，其性能明显优于同类模型。 在图7中，我们展示了（illustrate）正负样本对在LFW,CFP-FP,AgeDB-30,YTF,CPLFW和CALFW数据集上的角度分布（使用ResNet100在MS1MV2上训练的ArcFace模型预测）。我们可以清楚地发现，由于姿势和年龄差距引起的内方差显著的增加了positive pairs之间的角度，这使得面部验证的最好阈值（threshold）增加，并且在直方图上生成了更多的混淆区域（confusion regions）。
Result on MegaFace. MegaFace数据集包括690K不同的个体(different individuals)共计1M张图片作为gallery set，以及530个独特的个体（unique individuals）共计100K张图片作为探测（probe set）。在MegaFace中，两种协议（protocol）（identification and verification）下有两种测试方案（scenarios）（大数据集或者小数据集）。如果训练集中有超过0.5M张图片则视为大数据集。为了公平比较，我们分别在CAISA（0.5M，小数据集）和MS1MV2（5.8M，大数据集）上训练了ArcFace。在表6中，在CASIA上训练的ArcFace实现了最好的单模型识别和认证性能，不但超越了强大的基线（如SphereFace），而且性能优于其他发表的方法。
当我们在识别和验证中观察到一个明显的性能差距时，我们在整个MegaFace数据集上（1M的图片，太可怕了，怎么进行的manual啊！）进行了彻底的人工检查，发现很多人脸图片存在错误的标签，这严重的影响了性能。于是，我们手动的提炼了整个MegaFace数据集然后报告了ArcFace在MegaFace上正确的性能。在提炼后的MegaFace上，ArcFace人能够明显地性能优于CosFace，在Verification和Identification上都实现了最好的性能。
Under large protocol，ArcFace以明显的优势（clear margin）超越FaceNet，与CosFace相比，在识别（identification）上获得了类似的结果，在验证（verification）上获得了更好的结果。因为CosFace采用了一个私有数据集，我们使用ResNet100在MS1MV2数据集上重新训练了CosFace。在公平的比较下，ArcFace显示出优于CosFace的优势，并在识别和验证场景下都形成了CosFace的上限，如图8所示。
Result on IJB-B and IJB-C. IJB-B数据集包括了1845个主题(sbujects)共计21.8K个静态图片以及来自7011个视频中的55K个帧。总的来说，一共有10270个真实匹配(genuine matches)和8M个虚假匹配(impostor matches)共计12115个模板。IJB-C数据集是对IJB-B数据集的拓展，拥有3531个主题共计31.3K个静态图片，以及来自11779个视频中的117.5K个帧。总的来说，一共有19557个真实匹配和15639个虚假匹配共计23124个模板（template）。
为了与最近新出现的方法【论文6,41,42】进行公平的比较，在IJB-B和IJB-C数据集上，我们采用VGG2作为训练集，使用ResNet50作为嵌入网络来训练ArcFace。 在表7中，我们对比了ArcFace和之前SOTA模型的TAR(@FAR=1e-4）。ArcFace在IJB-B,IJB-C中可以明显的提升效率。（大约为3%~5%，这在错误方面是一个显著减少（significant reduction））。我们从更多的训练数据（MS1MV2）和更深的网络（ResNet100）中获取支持，ArcFace可以进一步提高在IJB-B和IJB-C上的TAR(@FAR=1e-4），分别达到了94.2%和95.6%。如图9 所示，我们展示了提出的ArcFace在IJB-B和IJB-C上所有的ROC曲线，ArcFace的表现令人印象深刻，即使在FAR=1e-6时。
Result on Trillion-Pairs. The Trillion-Pairs数据集提供了来自Flickr的1.58M张图片作为gallery set，以及来自LFW标识的5.7K张图片作为probe set。在gallery和probe set中的每个配对都用来评测（evaluation）（总共是0.4trillion对）。在表8中，我们比较了ArcFace在不同训练集上训练后的效果。提到的MSIMV2数据集与CASIA数据集相比，明显地提升了性能，它甚至略优于具有双重身份数字的DeepGlint-Face数据集。当将MS1MV2所有的identities和DeepGlint中的亚洲名人（Asrian celebrities）结合后，ArcFace取得了最好的识别性能84.84%（@FPR=1e-3），与来自排行榜（CIGIT_IRSEC）的最新提交相比，验证性能相当。
Results on iQIYI-VID. iQIYI-VID挑战包含了4934个身份信息共计565372个视频片段（219677个训练集，172860个验证集，172835个测试集），这些数据源自IQIYI各种各样的表演，电影和电视剧。每个视频的长度在1~30s之间不等。这个数据集支持特征识别的多模型线索（cues），包括脸，衣服，声音，步调和副标题。iQIYI数据集使用MAP@100作为验证指标。
如表9所示，ArcFace使用REsNet100在MS1MV2和Asian 整合的数据集训练，设置了一个高的基准（MAP=79.8%）。每一个训练的视频都基于嵌入特征，我们用一个分类损失训练了一个额外的三层全连层来获得在iQIYI数据集中自定义的特征描述（feature descriptor）。在IQIYI训练集上学习得到的MLP明显使得MAP提高了6.6%。从现成的对象(off-the-shelf)和场景分类器(scene classifier)中提取模型集合和上下文特征的支持，我们最终结果明显优于亚军（0.99%）。

4. Conclusions

在这篇论文中，我们提出了一个Additive Angular Margin损失函数，它可以通过DCNNs的学习有效地提高特征嵌入（feature embeddings）的分辨能力（discriminative power）。本文中，在这最综合的实验报告中，我们证明了我们的方法始终如一的优于SOTA。代码和细节已通过MIT协议发行。