MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

简介

MAE-DFER出自中科院自动化所,是一篇发表在多媒体顶会ACM MM上面的一篇文章。官方代码见:https://github.com/sunlicai/MAE-DFER

本文的动机

在这里插入图片描述

  • 现有的DFER数据集(通常在10K左右,如下表一所示,这比一般的图像/视频分类和人脸识别等研究领域要小得多,有限的训练样本严重限制了它们的进一步发展
    在这里插入图片描述

  • VideoMAE中使用的vanilla ViT编码器在微调过程中需要大量的计算,这是由于全局时空自注意力的二次成本,这在许多资源受限的场景中是负担不起的,而且只通过外形进行重建

本文的贡献

  • 提出了一种新的自监督方法MAE-DFER,利用大规模无标签人脸视频数据的自监督预训练来促进DFER的发展
  • MAE-DFER通过开发高效的LGI-Former作为编码器,并联合外观和时序面部运动掩码自编码器进行建模,改进了VideoMAE。通过这两个核心设计,MAE-DFER在具有相当甚至更好的性能的同时,大大降低了计算成本。
  • 在6个DFER数据集上的大量实验表明,MAE-DFER在显著性上优于之前最好的监督方法
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

模型

模型的发展

MAE

在这里插入图片描述
该模型的关键词如下:

  • ViT as backbone
  • Masked autoencoder (BEiT)
  • High mask proportion (BERT)
  • Asymmetric encoder-decoder
  • Pixel level reconstruction (BEiT)
  • Scalable

具体来说该模型使用VIT(Vision transformer)作为骨干网络,使用了掩码自编码器的技术的同时,相比与BERT有很高的掩码比率,这极大的减少参数量,同时还提升了模型的学习能力。BEIT利用tokenizer这个模型去猜测表征空间里面的向量,MAE直接基于pixel level的重建。模型是scalable的,这表明模型越大,模型的性能会得到一定的提升。

VideoMAE

在这里插入图片描述
视频可以看作是由静态图片随着时间的演化生成的,因此视频帧之间也存在语义的对应关系。如果不针对性地设计掩码策略,这种时序相关性可能会增加重建过程中的信息泄漏的风险。具体来说,如图所示,如果使用全局随机掩码或随机掩码图像帧,网络可以利用视频中的时序相关性,通过「复制粘贴」相邻帧中时序对应位置的未被遮蔽的像素块来进行像素块重建。这种情况下一定程度上也能完成代理任务,但是可能会导致VideoMAE仅仅能学习到较低语义的时间对应关系特征,而不是高层抽象的语义信息,例如对视频内容的时空推理能力。

通过时空快嵌入(cube embedding),被屏蔽立方体的在时序上相邻的邻居总是被屏蔽的。所以对于一些没有或者运动很小的立方体( (例如,图2第4行的手指立方体( d ) ),我们不能在所有的帧中找到时空对应的内容。通过这种方式,它将鼓励我们的VideoMAE在高层语义上进行推理,以恢复这些完全缺失的立方体。
在这里插入图片描述
视频可以理解为一组快速播放的图片,每一福图片由帧(frame)组成,n个连续的帧组成一个片段(clip)。VideoMAE首先从原始视频V中随机采样 t t t个片段,将片段压缩为T帧,每一帧包含 H ∗ W ∗ 3 H*W*3 HW3个像素,将采样压缩后的帧切分为 2 ∗ 16 ∗ 16 2*16*16 21616的cube,对cube使用时空联合嵌入,得到 T 2 ∗ H 16 ∗ W 16 \frac{T}{2}*\frac{H}{16}*\frac{W}{16} 2T16H16W个3D tokens,并将tokens映射到 D D D个通道维度中,使用普通ViT主干,并使用不对称encoder-decoder结构进行预训练。

模型的架构

LGI - Former是组成编码器的核心模块,LGI - Former的核心思想是在局部区域引入一组具有代表性的小标记。一方面,这些标记负责汇总局部区域的关键信息。另一方面,它们允许对不同区域之间的长距离依赖关系进行建模,并实现有效的局部-全局信息交换。
在这里插入图片描述
计算帧差信号作为时间运动标签,因为它的计算非常便宜,并且在视频行为识别中显示出有效性。为了确保预训练期间的计算成本与VideoMAE相似,我们为外观和运动分支共享解码器主干,并且只使用两个不同的线性头部来预测它们的目标。此外,解码器仅输出奇数帧的外观预测和其余偶数帧的运动预测。最后,总损失是两个分支中的均方误差的加权和。
在这里插入图片描述
在这里插入图片描述
具体思想:

  • 先将原先的3D tokens通过cube embeding分为一个个小的区域
  • 每个局部区域转换成一个个序列,并给每个序列加入一个代表性token
  • 第一步通过局部区域内的多头自注意机制,让每个代表性token学到各个区域的区域性特征
  • 第二步对每个代表性token进行多头自注意力,让每个代表性token学习到不同区域间的特征
  • 第三步将每个学习到不同区域间特征的各个小区域的代表性特征拼接回原来的各个区域特征中

实验

在这里插入图片描述
更长的预训练通常是有益的,并且性能饱和发生在大约50个Epochs。除此之外,我们还发现从头训练(即Epochs = 0 )的性能很差(近乎随机猜测)
在这里插入图片描述

  • 只有局部区域内的自注意力效果最差
  • 局部-全局交互注意力比全局区域间自注意力更有效,但全局区域间自注意力计算量很小

在这里插入图片描述
联合掩蔽的外观和运动建模对于促进DFER更好的时空表示学习是必不可少的

在这里插入图片描述
当使用2 × 5 × 10 (仅使用M = 8个representative token)的区域大小时,该模型实现了最佳的性能-计算权衡
在这里插入图片描述

  • 我们为偶数帧显示的帧差图像使用了灰色背景,并通过将偶数帧中的重建帧差图像与相邻恢复的奇数帧图像相加来显示所有的重建视频

  • 在高掩蔽率( 75 %或90 %)下,MAE-DFER仍然可以对人脸外观内容和时间运动信息产生令人满意的重建结果。值得注意的是,尽管身份信息(由于模型在预训练时没有看到这个人)发生了变化,但在有限的可视上下文(eg:开口)中进行推理可以很好地还原动态面部表情。这意味着我们的模型能够学习到有意义的动态人脸表示,从而捕获全局时空结构。

在这里插入图片描述
为了进一步定性地展示MAE - DFER相对于传统监督方法的优越性,我们在DFEW fd1上使用t - SNE对学习到的嵌入进行可视化。如图所示,我们的方法的嵌入比两个最先进的监督方法(即, IAL和Former-DFER )更紧凑和可分离,这表明MAEDFER可以通过大规模的自监督预训练来学习对不同动态人脸表情更有区分性的表示。此外,VideoMAE与我们的MAE-DFER具有相似的嵌入空间,但需要付出更大的计算成本。

总结

在本文中,我们提出了一个有效且高效的自监督框架,即MAE - DFER,以利用大量未标记的面部视频,以解决当前监督方法的困境,并促进DFER的发展。我们相信,MAE - DFER将作为一个强有力的基准,促进DFER的相关研究。未来,我们计划探索MAE - DFER (即使用更多的数据和更大的模型)的标度行为。此外,将其应用到其他相关任务(例如,动态微表情识别和面部动作单元检测)中也很有意思。

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
MG-BERT是一种基于BERT的模型,用于分子属性预测。它通过使用无监督的原子表示学习来训练模型,使得模型能够自动地学习分子中原子之间的关系,从而提高了分子属性预测的准确性。以下是MG-BERT的训练详细过程介绍。 1. 数据预处理 首先,需要从分子结构数据库中获取分子数据,并将其转换为模型可处理的格式。在这个过程中,需要考虑到原子的类型、位置和化学键信息,以及分子的二维和三维结构。 2. 原子表示学习 在MG-BERT中,使用了一个无监督的原子表示学习方法,称为Atom2Vec。Atom2Vec是基于Word2Vec的算法,它将原子序列映射到一个高维向量空间中,使得相似的原子在向量空间中的距离更近。这个过程中,使用了分子结构信息和化学键信息来生成原子向量。 3. 分子表示学习 在原子表示学习之后,使用Transformer模型对分子进行表示学习。Transformer是一种自注意力机制的模型,它可以自动地学习输入序列中的关系,从而生成表示向量。在MG-BERT中,使用了多层Transformer模型来对分子进行表示学习。 4. 分子属性预测 在分子表示学习之后,通过添加一个全连接层对分子属性进行预测。在这个过程中,需要将分子表示向量映射到一个固定的维度,并使用softmax函数对结果进行归一化。 5. 模型训练 在训练过程中,使用交叉熵损失函数来优化模型参数。在每轮训练中,随机选择一定数量的分子作为训练集,并使用Adam优化器来进行模型参数更新。 6. 模型评估 在训练完成后,使用测试数据集来评估模型的性能。在MG-BERT中,使用了平均绝对误差(MAE)和均方根误差(RMSE)来评估模型的预测准确性。 以上是MG-BERT的训练详细过程介绍。通过使用无监督的原子表示学习和Transformer模型的组合,MG-BERT可以自动地学习分子的特征,从而提高了分子属性预测的准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

卡拉比丘流形

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值