论文笔记:Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for FER

Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition
CVPR21的表情识别,主要解决标签模糊的问题,提出一种潜在标签挖掘的方法和一种sample间的不确定性评估方法。
不同之处:不舍弃原有标签,同时利用创造的标签与原标签,根据标签的不确定性(置信度)动态利用。
在训练时,加入Auxiliary Branches发掘潜在分布标签、知识蒸馏,加入Uncertainty Estimation Module调整对原标签的训练权重。
训练完成后的推断不需要Auxiliary Branches和Uncertainty Estimation Module,是end-end的方法。
在这里插入图片描述

Latent Distribution Mining

在这里插入图片描述
图片先经过特征提取,实验中使用ResNet-18,得到的特征会输入C=7个辅助分支。
给出一个batch,batch中的图片有C=7种分类,训练计算Laux CE时,第j类的图片不输入第j个辅助分支,如第2类图片输送送到的辅助分支有1、3、4、5、6、7,进行训练,即第j辅助分支不接收第j类的图片,如第1类的辅助分支只接收2、3、4、5、6、7分类的图片。计算第j个branch分类器的loss公式如下,y(xp,k)是图片原有的one hot label的元素(=1或0),一个辅助分支分类器输出的是C-1维的向量,即6*1的向量,仅用于计算计算Laux CE。
在这里插入图片描述

Laux CE是为了训练辅助分支的分类准确度。
在这里插入图片描述
注意:区别于branch的训练阶段,当要生成Latent distribution label时,第j类的图片输入第j个的辅助分支,输出C-1维(6*1)的向量,这就是潜在的分布标签y~。
在这里插入图片描述
以下计算Lsoft就用到潜在分布标签y,计算Lsoft是为了拟合target branch的输出与潜在分布标签y。L2对不准确的预测不那么敏感。
在这里插入图片描述

Similarity Preserving

方法来自论文:Similarity-preserving knowledge distillation
Similarity Preserving是知识蒸馏的一种方法,让student模型提取特征的能力拟合teacher模型提取特征的能力。
在这里插入图片描述
计算Lsp是为了让目标分支提取特征的能力向7个辅助分支靠近。
在这里插入图片描述

Pairwise Uncertainty Estimation

为了trade-off潜在分布标签与原有标签的重要性,引入一个α置信度值,图片的α偏低说明原有标签不够准确,要着重参考潜在分布标签,反之亦然。

余弦距离作为相似度,计算一张图与同一batch中其他的图(包括同类的图)的距离,以此方法来找到这张图片真正属于哪一类(与哪一类图片更接近),f是ResNet-18提取的特征。
C=7时(j=1,2,3,4,5,6,7),一张图需要计算7次以下Sa,j的公式。
concat(Sa,ya)是为了让模块知道这张图片原标签是什么,好让它评估置信度α。
在这里插入图片描述
最后可求得一个这张图片的置信度α:
在这里插入图片描述
有了原标签的置信度α,就可以算target branch的原标签softmax交叉熵损失函数了:
在这里插入图片描述

Overall Loss function

在训练开始时,辅助分支挖掘的潜在分布不够稳定,权重要大一点;当辅助分支得到很好的训练后,就转移注意力去训练目标分支。
在这里插入图片描述

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值