感谢我的同事@徐桦所作的工作
一、主要类型
1.1 pairwise系列
早期的人脸识别的loss主要是以contrastive loss 和tripletloss为主,但随着数据集的增大,需要复杂的数据对构造策略,否则搜索空间是 O ( N 2 {O(N^2} O(N2)和 O ( N 3 ) {O(N^3)} O(N3),效果明显不如softmax系列
1.2 Softmax系列
- softmax with loss
L s = − 1 m ∑ i = 1 m l o g e W y i T f i + b y i ∑ j = 1 n e W j T f i + b j L_s=-\frac{1}{m}\sum_{i=1}^{m}log\frac{e^{W^T_{y_i}f_i+b_{y_i}}}{\sum{_{j=1}}{^n}e^{W^T_j{f_i+b_j}}} Ls=−m1i=1∑mlog∑j=1neWjTfi+bjeWyiTfi+byi
softmax with loss 是一种常见的分类loss,优点是:擅长类间竞争,凸显正确标签与错误标签的差异。
缺点:对类内差异的表征差,学到的特征较为松散,一般用于人脸loss时,会将bias项置为零
假设是一个十个分类问题,那么每个类都会对应一个权值向量
w
0
,
w
1
,
w
.
.
.
.
.
w
9
w_0,w_1,w_.....w_9
w0,w1,w.....w9,某个特征f会被分为哪一类,取决于和哪一个权值向量的内积最大。模型固定后,权重
w
w
w固定,因此
f
f
f与
w
w
w的内积只取决于它们的家教,故特征呈辐射装分布,在推理时
f
1
f_1
f1和
f
2
f_2
f2是否相似由它们的欧式距离决定,但由于模长差异巨大,常常有如图的结果
- Center loss
L s = − ∑ i = 1 m l o g e w y i T x i + b y i ∑ i = 1 n e w j T x i + b j + λ 2 ∑ i = 1 m ∣ ∣ x i − c y i ∣ ∣ 2 2 L_s=-\sum^m_{i=1}log\frac{e^{w^T_{y_i}x_i+b_{y_i}}}{\sum^n_{i=1}e^{w^T_jx_i+b_j}}+\frac{\lambda}{2}\sum_{i=1}^m{||x_i-c_{y_i}||_2^2} Ls=−i=1∑mlog∑i=1newjTxi+bjewyiTxi+byi+2λi=1∑m∣∣xi−cyi∣∣22
Center Loss是最早开始修正Softmax Loss的工作,简单地在Softmax的基础上增加了一个与类中心距离的正则项,粗暴地拉近了类内距离
- NormFace
NormFace最早提出特征和权重 w w w的归一化,并针对归一化之后的loss难以收敛的情况给出了数学上的证明以及解决方案,最后将特征用参数 s s s映射到一个超球面上
- L-Softmax
L-Softmax是最早提出angular margin这个概念的,从优化 w w w与 f f f的点积想到优化 w w w与 f f f的夹角,并结合margin概念拉近类内距离,从此开始的任务多是基于angular margin的
但乘性margin存在一个很大的问题是,本身这类间距较小,margin也较小,比较难处理一些难例
- A-Softmax
A-Softmax借鉴了L-Softmax的angular margin,以及NormFace的权重归一化,margin也还是乘性margin
- AM-Softmax&CosFace
AM-Softmax的作者和NormFace是同一个人,在NormFace的基础上吸收了anguar margin,并提出了加性margin,相比乘性margin由两个优点:1.容易实现,不用算北角公式;2.margin更稳定,原来类间差异较小的类也能被margin拉开
- ArcFace
ArcFace修改了AM-Softmax的加性margin,从加到余弦值上,变成直接加到夹角上,更为直接,容易优化,并尝试了各种margin组合的方式,意义不大。
二、minist数据集的实验对比
三、CVPR2020
- Reference:Circle Loss: A Unified Perspective of Pair Similarity Optimization
主要贡献:提出了一种loss,其形式为softmax loss与triplet loss的统一,在metric learning领域均能得到不错的结果
- Reference:GroupFace: Learning Latent Groups and Constructing Group-based Representations for Face Recognition
主要贡献:利用attention机制增强group aware的特征表达,缩小特征搜索空间,在9个数据集上刷带了SOTA
四、未来趋势
-
3D人脸识别
传统2D人脸识别在Loss设计上已经走到尽头,继续往后走提升相对有限,而3D硬件逐渐达到量产水平,必然会促进3D算法的飞速发展 -
Domain Balancing以及长尾问题
实际应用中复杂的环境:人种、年龄、光照、遮挡、大角度、多表情、模糊等因素使得模型效果大打折扣;公开数据集种大部分ID的图片数很少的长尾问题,在训练时等价处理head和tail数据显然不太合理,尤其是tail数据的噪声很容易就把embedding的方向带偏了