摘要:基于余弦距离的softmax损失在深度学习人脸识别中取得了很大的成功,但是,这些loss中的超参数的设置仍然在优化路径上有着很大的影响,并影响最后的性能。人工调试这些超参数非常依赖调参人的经验并需要许多训练的技巧。
本文深入研究了基于余弦距离损失的两个重要的超参数。缩放参数和角度margin参数,通过对这两个参数是如何调制分类输出概率的分析,我们提出了一种新的基于余弦距离的loss,AdaCos。这个损失不需要超参数,可以自适应缩放参数来调整训练过程中监督信号的强弱。我们将提出的AdaCos损失用在大规模人脸识别数据集上,包括LFW,MegaFace,IJB-C上,结果显示我们的方法取得了很高的准确率,超过了当前的业界最佳。
1. 介绍
本文中,我们研究了几个基于余弦距离的softmax loss,特别是那些使用最大化角度margin的方法,这些margin在训练神经网络时提供了监督,每个损失函数的公式中都包含几个超参数,这些参数潜移默化的影响着最后的性能,但是常常非常难以调试。需要使用不同的设置,重复的训练,来得到一个最优值。我们的分析显示了这些损失中的不同的参数实际上对于样本的预测类别的概率有着相似的作用。不合适的超参数设置会导致损失函数无法提供足够的监督来优化网络。
基于上面的发现,我们提出了自适应的基于余弦距离的损失,AdaCos,这个损失可以自动的调试超参数,在训练中产生最有效的监督。这个损失可以动态的缩放训练样本和对应的类别中心向量之间的余弦相似度,使得预测出来的类别的概率和余弦相似度的语义含义相匹配。另外,AdaCos非常容易实现。AdaCos可以导致更快更稳定的收敛,不需要额外的训练量。
为了展示AdaCos的有效性,我们在几个人脸的benchmarks上进行了评估,包括LFW,MegaFace和IJB-C,我们的方法由于当前的业界最优。
2. 在基于余弦距离的softmax上研究超参数
过去几年中,基于余弦距离的softmax loss显著的提升了人脸识别的水平,但是超参数潜在的影响了模型的能力,但是这些超参数很难调试,需要非常多次的实验。我们分析了最重要的两个超参数,缩放参数s,和margin参数m,特别的,我们深入研究了它们对于预测概率的影响,这在更新网络的过程中起到了监督信号的作用。
用
交叉熵损失为:
传统的softmax和当前基于余弦距离的softmax在计算
CosFace使用:
其中,m是margin,所有基于margin的变体对于正确的类别的
直觉上,一方面,参数s对于狭窄的一些距离的范围进行了缩放,使得logtis更加的具有可分性。另一方面,参数m增大了不同类别之间的margin,提升了分类的能力。这些超参数最终影响了