论文复现与理解记录：Weakly-Supervised Unconstrained Action Unit Detection via Latent Feature Domain

最新推荐文章于 2024-07-01 00:13:53 发布

qiaoqiao2332

最新推荐文章于 2024-07-01 00:13:53 发布

阅读量834

点赞数 2

分类专栏：论文学习文章标签：论文 pytorch AU检测

本文链接：https://blog.csdn.net/u011668104/article/details/102755141

版权

论文学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文：Weakly-Supervised Unconstrained Action Unit Detection via Latent Feature Domain
源码：https://github.com/ZhiwenShao/ADLD
复现结果：
采用BP4D作为source database,EmotioNet作为dest database训练弱监督（–mode=‘weak’）模型,
在EmotioNet上的测试结果为平均F1是0.331，比论文中的0.368略低，
在BP4D上的测试结果为平均F1是0.629，比论文中的0.610略高。

感受：代码风格很好写得又易读又美观，完全可以根据代码把整个结构和训练过程理解一下画一下，跑整个工作基本上按照步骤走就能直接跑出来，复现过程没有碰上任何困难，感谢作者无私奉献公开代码，敢于公开代码的才是真大佬呀，膜拜~

算法内容和代码整合理解

论文中作者给的算法结构图：
在这里插入图片描述
我自己画出来完整的训练过程结构图是这样的：

在这里插入图片描述

其中蓝色字母代表输入输出的图片或者特征图，黑色字母代表网络结构块，红色字母代表loss function。虚线部分是全监督（目标数据集图片也提供AU标签的时候）才有的。

代码与上图对应符号信息：
在这里插入图片描述
下面从左到右按照我画的这张图和表格来挨着讲这个结构。

训练过程解释：

图上网络结构中所有的相同符号代表同一个网络，参数完全相同的，比如图上 $G$ 出现了6次，实际上是同一个网络结构。一共有8个网络结构块（上图表格里面第一列的8个符号代表的8个网络）需要训练学习，其中 $D_f^s$ 与 $D_f^t$ 具有相同的网络结构，但是是两个网络，不共享参数。

$g^s$ 和 $g^t$ 是输入图片，图片分别是源数据集BP4D和目标数据集EmotioNet的图片，大小为 $\times 176 \times 176$ ， $s$ 是sourse源， $t$ 是target目标。

$E_f$ 对输入的图片提取基础特征，得到特征图 $x^s$ 和 $x^t$ , 大小为 $64 \times 44 \times 44$ .

$E_t$ 和 $F_l$ 分别用于提取跟landmark无关的文本特征和landmark特征（t: texture feature, l: landmark-related feature, 姑且这么记）。landmark信息和AU信息是一伙的，绑定在一起了，所以哪个图有landmark信息哪个就有AU信息。生成的特征图 $z_t^?$ 和 $z_l^?$ ( $?$ 代表 $t$ 或 $s$ ) 的大小分别是 $64 \times 44 \times 44$ 和 $49 \times 44 \times 44$ .

从 $x^?$ 到 $z_t^？$ 和 $z_l^?$ 的过程是把特征解耦的过程，目的是把landmark特征隔离出来。 $z_l^?$ 我们期望它含有landmark信息的，所以用来计算特征点检测的loss $L_l$ 。 $z_t^?$ 我们期待它不含有landmark信息，所以用一个对抗网络 $D_l$ 来获取landmark信息，我们希望 $E_t$ 不能获取landmark信息，希望 $D_l$ 能提取到landmark信息。由此确定landmark对抗学习的loss $L_{ad_l}$ 。

$F_a$ 是提取AU信息的网络，这里 $F_a(x^s)$ 期望能得到真实的AU信息，所以 $F_a(x^s)$ 被用于计算AU检测的loss $L_a$ 了。同样地，如果是全监督（–mode=‘full’），那么目标数据集也会提供AU标签，所以 $F_a(x^t)$ 也应该被用于计算 $L_a$ 。

$G$ 是生成网络，以 $z_t^？$ 和 $z_l^?$ 作为输入的生成网络一共跑了4次 $G$ ，其中有2个属于交叉生成（目的是交换源图和目标图的landmark信息），有2个属于特征重建，图片自身的两种特征合并起来。

我们期望2个重建特征生成网络的输出能完美恢复出原来的信息，由此计算特征重建的loss $L_r$ 。

对于交叉生成的图，我们期待它能保持原始图片的文本信息，也就是 $\tilde{x_?}$ 与 $x_?$ 一致，所以分别用俩对抗网络 $D_f^s$ 和 $D_f^t$ 来学习特征，据此计算对抗学习特征的loss $L_{ad_f}$ 。另一方面，我们期望交叉生成确实交换了landmark信息，跟随landmark信息的AU信息也应该交换了，所以从 $\tilde{z_t}$ 应该可以提取au特征得到相应源图的au信息，也就是要计算au检测的loss $L_a$ ，交叉生成图中的landmark信息也能用 $F_l$ 中再获取出来，所以用来计算landmark的loss $F_l$ , 并且，生成的数据重新再拆分一次landmark特征和文本特征并再交叉生成一次，理论上交叉后应该能再把landmark信息换回来，恢复原始数据，这里用于计算两次交叉的loss $L_{cc}$ 。

整个训练过程大概可以视为把源图片和目标图片的landmark特征和文本特征解耦合，交叉再交叉就能恢复。为了确保网络能真的拆分出来landmark信息和文本特征信息，文章设计了一系列的loss函数。

下面详细讲一下文章设计的这几个loss函数
1）au检测的loss：(loss_au, $L_a$ )

这里的 $\tilde{X}^T$ 是第一次交叉生成的结果， $P^S$ 是源图 $X^S$ 对应的AU标签，左边代表根据 $\tilde{X}^T$ 和 $P^S$ 计算loss来训练 $F_a$ 的参数。右边 $m$ 是AU总种类数，在这篇文章中是6， $p$ 和 $\tilde{p}$ 分别是标签和预测的AU出现概率， $w_j^s$ 是源图中第j个AU的loss权重，是根据不同AU在源文件中出现的频率计算的，计算方式可参考同一个作者的两一篇文章JAA算法，即：
在这里插入图片描述
其中 $r$ 是rate，对应AU出现频率，出现频率越高的AU，在loss计算中的重要性越低。

对于弱监督，

$L_a$ = $(L_a(F_a, \tilde{X}^T, P^S)$ + $L_a(F_a, X^S, P^S) )\times 0.5$ ，

也就是说我们期望 $\tilde{x}^t$ 和 $x^s$ 包含源文件 $g_s$ 的AU信息。

对于强监督，

$L_a$ = $(L_a(F_a, \tilde{X}^T, P^S)$ + $L_a(F_a, X^S, P^S)$ + $L_a(F_a, \tilde{X}^S, P^T)$ + $L_a(F_a, X^T, P^T)) \times 0.25$

代码实现的时候用带权重的BCEloss计算，标签AU信息大小是[N, 6]， $F_a$ 输出结果大小是[N, 6].

2）landmark检测的loss: (loss_land, $L_l$ )
在这里插入图片描述
这里 $X^T$ 是目标文件经过特征提取的结果， $Y^T$ 代表目标文件的landmark特征标签信息。左边表示根据 $X^T$ 和 $Y_T$ 训练 $F_l$ 。右边是计算的方法。右边的 $k$ 是landmark分类，所以最大是 $d_2$ 也就是44*44个分类，n是landmark个数，这里是49。

这里landmark的loss计算作者有一个比较特殊的地方。一般我们认为landmark是回归问题，但是作者把landmark视为分类问题。他是这样转化的：landmark特征提取图原本的大小是[49, 44, 44]，作者把49个点的坐标转化为分类，换算方法是 $c = x * 44 + y$ ，其中x,y是某个特征点的坐标，所以49个点的坐标实际上分别替换成了一个分类号，该分类号范围是[0，44*44-1]。那么对于每个landmark，预测出来的是一张特征图[44, 44]，用softmax操作这[44,44]个点看谁概率最高就认为是这个分类。

$L_l$ = $L_l(F_l, X^T, Y^T)$ + $L_l(F_l, X^S, Y^S)$ + $L_l(F_l, \tilde{X}^T, Y^S)$ + $L_l(F_l, \tilde{X}^S, Y^T)) \times 0.25$

也就是说我们期望 $x^s$ 和融合了 $x^s$ landmark信息的 $\tilde{x}^t$ 都包含 $x^s$ 的landmark信息；而 $x^t$ 和融合了 $x^t$ landmark信息的 $\tilde{x}^s$ 都包含 $x^t$ 的landmark信息。

代码实现的时候用CrossEntropyLoss实现。

3）特征重建loss：（loss_self_recons , $L_r$ ）
在这里插入图片描述
这个比较容易理解，就是期望特征重建生成的图能恢复出原图，也就是 $G(z_t^t, z_l^t)$ 与 $x^t$ 要一样。

$L_r$ = $(L_r(F_l, E_t, G, X^T) + L_r(F_l, E_t, G, X^S)) \times 0.5$

代码实现上用L1Loss

4）双交叉生成loss：（loss_gen_cycle , $L_{cc}$ ）
在这里插入图片描述
这个也比较容易理解，交换两次信息后理论上我们期望能恢复出原来的信息，也就是 $\widehat{x}^t$ 与 $x^t$ 要一样。

$L_{cc}$ = $L_{cc}(F_l, E_t, G, X^T, X^S)$ + $L_{cc}(F_l, E_t, G, X^S,X^T)) \times 0.5$

代码实现上用L1Loss

5）生成对抗loss : (loss_invar_shape_adaptation与loss_gen_adaptation， $L_{ad_l}$ 与 $L_{ad_f}$ )

这部分因为我没了解过生成对抗网络所以对我来说理解起来最难。

$L_{ad_l}$ 是由下面两个部分组成的：
在这里插入图片描述

在这里插入图片描述
上面两个式子加起来就是下面的 $L_{ad_l}$ . 第一个式子代表的含义是训练 $D_l$ 的时候我们希望它能够提取到检测到landmark信息，所以希望能在正确的地方预测为real_label (也就是1)，在错误的地方预测为fake_label(也就是0）. 第二个式子代表的含义是训练 $E_t$ 的时候我们希望它提取不到landmark信息，所以就希望它的所有地方预测结果都是随机概率值1/(d^2)。两个合起来就是对landmark的对抗网络loss。
在这里插入图片描述
$L_{ad_l}$ = $(L_{ad_l}(E_t, D_l, X^T, Y^T) + L_{ad_l}(E_t, D_l, X^S, Y^S)) \times 0.5$

对于 $L_{ad_f}$ , 我们是希望生成的数据能尽可能保持原始数据的整体信息，所以希望经过 $D_f$ 能得到real_label (也就是1)
在这里插入图片描述
$L_{ad_f} = (L_{ad_f}(F_l, E_t, G, D_f^t, X^T) + L_{ad_f}(F_l, E_t, G, D_f^s, X^S)) \times 0.5$

代码实现上用MSELoss

qiaoqiao2332

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
7
评论
论文复现与理解记录：Weakly-Supervised Unconstrained Action Unit Detection via Latent Feature Domain

论文：Weakly-Supervised Unconstrained Action Unit Detection via Latent Feature Domain源码：https://github.com/ZhiwenShao/ADLD复现结果：采用BP4D作为source database,EmotioNet作为dest database训练弱监督（–mode=‘weak’）模型,在E...
复制链接

扫一扫

专栏目录