Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition
CVPR21的表情识别,主要解决标签模糊的问题,提出一种潜在标签挖掘的方法和一种sample间的不确定性评估方法。
不同之处:不舍弃原有标签,同时利用创造的标签与原标签,根据标签的不确定性(置信度)动态利用。
在训练时,加入Auxiliary Branches发掘潜在分布标签、知识蒸馏,加入Uncertainty Estimation Module调整对原标签的训练权重。
训练完成后的推断不需要Auxiliary Branches和Uncertainty Estimation Module,是end-end的方法。
Latent Distribution Mining
图片先经过特征提取,实验中使用ResNet-18,得到的特征会输入C=7个辅助分支。
给出一个batch,batch中的图片有C=7种分类,训练计算Laux CE时,第j类的图片不输入第j个辅助分支,如第2类图片输送送到的辅助分支有1、3、4、5、6、7,进行训练,即第j辅助分支不接收第j类的图片,如第1类的辅助分支只接收2、3、4、5、6、7分类的图片。计算第j个branch分类器的loss公式如下,y(xp,k)是图片原有的one hot label的元素(=1或0),一个辅助分支分类器输出的是C-1维的向量,即6*1的向量,仅用于计算计算Laux CE。
Laux CE是为了训练辅助分支的分类准确度。
注意
:区别于branch的训练阶段,当要生成Latent distribution label时,第j类的图片输入第j个的辅助分支,输出C-1维(6*1)的向量,这就是潜在的分布标签y~。
以下计算Lsoft就用到潜在分布标签y,计算Lsoft是为了拟合target branch的输出与潜在分布标签y。L2对不准确的预测不那么敏感。
Similarity Preserving
方法来自论文:Similarity-preserving knowledge distillation
Similarity Preserving是知识蒸馏的一种方法,让student模型提取特征的能力拟合teacher模型提取特征的能力。
计算Lsp是为了让目标分支提取特征的能力向7个辅助分支靠近。
Pairwise Uncertainty Estimation
为了trade-off潜在分布标签与原有标签的重要性,引入一个α置信度值,图片的α偏低说明原有标签不够准确,要着重参考潜在分布标签,反之亦然。
余弦距离作为相似度,计算一张图与同一batch中其他的图(包括同类的图)的距离,以此方法来找到这张图片真正属于哪一类(与哪一类图片更接近),f是ResNet-18提取的特征。
C=7时(j=1,2,3,4,5,6,7),一张图需要计算7次以下Sa,j的公式。
concat(Sa,ya)是为了让模块知道这张图片原标签是什么,好让它评估置信度α。
最后可求得一个这张图片的置信度α:
有了原标签的置信度α,就可以算target branch的原标签softmax交叉熵损失函数了:
Overall Loss function
在训练开始时,辅助分支挖掘的潜在分布不够稳定,权重要大一点;当辅助分支得到很好的训练后,就转移注意力去训练目标分支。