论文笔记：Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for FER-CSDN博客

本文链接：https://blog.csdn.net/msy1412/article/details/115612196

该博客围绕CVPR21的表情识别展开，主要解决标签模糊问题。提出潜在标签挖掘和sample间不确定性评估方法，不舍弃原标签，动态利用创造的标签。训练时加入辅助分支和不确定性评估模块，推断时是end - end方法，还介绍了相关损失函数的计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition
CVPR21的表情识别，主要解决标签模糊的问题，提出一种潜在标签挖掘的方法和一种sample间的不确定性评估方法。
不同之处：不舍弃原有标签，同时利用创造的标签与原标签，根据标签的不确定性(置信度)动态利用。
在训练时，加入Auxiliary Branches发掘潜在分布标签、知识蒸馏，加入Uncertainty Estimation Module调整对原标签的训练权重。
训练完成后的推断不需要Auxiliary Branches和Uncertainty Estimation Module，是end-end的方法。
在这里插入图片描述

Latent Distribution Mining

在这里插入图片描述
图片先经过特征提取，实验中使用ResNet-18，得到的特征会输入C=7个辅助分支。
给出一个batch，batch中的图片有C=7种分类，训练计算Laux CE时，第j类的图片不输入第j个辅助分支，如第2类图片输送送到的辅助分支有1、3、4、5、6、7，进行训练，即第j辅助分支不接收第j类的图片，如第1类的辅助分支只接收2、3、4、5、6、7分类的图片。计算第j个branch分类器的loss公式如下，y(xp,k)是图片原有的one hot label的元素（=1或0），一个辅助分支分类器输出的是C-1维的向量，即6*1的向量，仅用于计算计算Laux CE。
在这里插入图片描述

Laux CE是为了训练辅助分支的分类准确度。
在这里插入图片描述
注意：区别于branch的训练阶段，当要生成Latent distribution label时，第j类的图片输入第j个的辅助分支，输出C-1维（6*1）的向量，这就是潜在的分布标签y~。

以下计算Lsoft就用到潜在分布标签y，计算Lsoft是为了拟合target branch的输出与潜在分布标签y。L2对不准确的预测不那么敏感。
在这里插入图片描述

Similarity Preserving

方法来自论文：Similarity-preserving knowledge distillation
Similarity Preserving是知识蒸馏的一种方法，让student模型提取特征的能力拟合teacher模型提取特征的能力。
在这里插入图片描述
计算Lsp是为了让目标分支提取特征的能力向7个辅助分支靠近。

Pairwise Uncertainty Estimation

为了trade-off潜在分布标签与原有标签的重要性，引入一个α置信度值，图片的α偏低说明原有标签不够准确，要着重参考潜在分布标签，反之亦然。

余弦距离作为相似度,计算一张图与同一batch中其他的图(包括同类的图)的距离，以此方法来找到这张图片真正属于哪一类(与哪一类图片更接近)，f是ResNet-18提取的特征。
C=7时(j=1,2,3,4,5,6,7)，一张图需要计算7次以下Sa,j的公式。
concat(Sa，ya)是为了让模块知道这张图片原标签是什么，好让它评估置信度α。
在这里插入图片描述
最后可求得一个这张图片的置信度α：

有了原标签的置信度α，就可以算target branch的原标签softmax交叉熵损失函数了：