【论文阅读】AU检测《Learning Representations for Facial Actions from Unlabeled Videos》

论文提出了一种名为Twin-cycle Autoencoder (TAE)的方法,用于从大量未标记视频中学习面部动作的区分性表示。TAE通过学习面部图像间的像素位移来捕捉面部动作,同时解耦面部动作和头部运动的影响。通过自监督学习,TAE在无需手动标注的情况下,实现了与现有AU检测方法相当的精度,并通过实验验证了其在解耦这两种运动方面的能力。
摘要由CSDN通过智能技术生成
摘要

面部动作通常被编码为基于解剖学的动作单元(AUs),标记这些动作单元需要专业知识。为了缓解标签需求,论文建议利用大量的未标签视频,通过所提出的Twin-cycle Autoencoder(TAE) 来学习面部动作的区别表示。TAE的提出基于面部动作是嵌入在视频中两个连续的面部图像(在下文中,称为“源”和“目标)”之间的像素位移中的。因此,学习面部动作的表征可以通过学习位移的表征来实现。然而,面部动作引起的位移与头部动作引起的位移是纠缠在一起的。
TAE便是训练来解开这两种运动的,即当面部动作或头部姿态发生变化时,以重建目标图像为目的,通过评估合成图像的质量来实现。在对AU检测的实验中表明,TAE可以达到与现有的其他AU检测方法(包括一些有监督的方法)相当的检测精度,从而验证了TAE学习的表征的判别能力。通过可视化所生成的图像,定性和定量地分析人脸图像恢复结果,验证了TAE对动作诱发运动和姿态诱发运动的解耦能力。

介绍

为减轻对充分和准确注释的需求,论文利用几乎无限数量的无标签视频,用自监督方式学习面部动作的区别表示。考虑到面部动作表现为面部内部的局部动作,易于检测而无需人工标注,由此,论文提出用动作作为学习面部运动表示的监督信号。然而,检测到的动作可能是由面部运动和头部运动共同引起的。在某些情况下,特别是在不受控制的情况下,头部运动是运动的主要贡献者。如果不将头部运动的运动从监控信号中去除,学习到的特征对于AU建模来说将不具有足够的判别性。
为了从中学习面部动作,论文提出了双周期自动编码器(TAE),该编码器自监督学习两种嵌入,分别对由于AUs和头部运动引起的动作进行编码。然后,进一步将运动描述为视频中同一个人的两幅人脸图像之间的像素位移,这个运动是很容易估计的,因为已由两幅图像的差异所暗示。因此,TAE以自监督的方式通过学习图像变形任务对位移进行编码。图1表示了TAE的主要思想。如图所示,从一个视频中采样了一个被试者的两张人脸图像(源图像和目标图像),在视频中,她带着不同的表情说话和移动。当人脸动作或头部姿态发生变化时,TAE通过评估合成图像的质量来解耦运动,以重建目标图像。TAE
由于没有关于面部动作或姿势的标签,论文中设计了两种机制来考虑面部动作的局部性和微妙性,以及头部运动的整体性和显著性。通过强制面部动作相关的特征和动作是区域且微妙的,而头部运动是适度且刚性的,以确保图1中的上部路径是关于面部动作的。具体来说,作者设计了一个区域感知编码器(region perceptive encoder) 来提取面部动作特征,并对面部动作运动添加一个稀疏和微妙的约束(以此来区分action-induced and pose-induced movements)。为了使解耦的动作有物理意义,TAE引入双循环机制(twin-cycle mechanism)来保持一致性,从而使生成的人脸图像更加真实。从图1中可以看出,在每个循环内,由动作诱发所生成的面部图像和姿态改变所生成的面部图像被变形回到源。动作诱导和姿态诱导的运动进一步被组合以将源变形为目标。

自监督学习

自监督学习从数据本身的结构推断出监督信号,包括帧与帧之间的序。许多自监督学习方法在运动信息的帮助下从视频中学习视觉表示。与TAE最相关的工作是Fab-Net,它被优化为通过预测源帧和目标帧之间的流场来将源帧映射到目标帧。但Fab-Net无法区分AUs上的信息和姿势上的信息。

TAE

为了从无标签的视频中学习面部动作的区别表示,必须解决两个问题:如何在无标签的条件下学习表示?如何使所学的表示对面部动作有区别性?
对前者,受面部动作表现为局部面部肌肉的动作这一事实的启发,设计自监督任务来从任务中学习。所提出的编码器-解码器架构将一对源图像和目标图像作为输入,并且任务是通过根据预测的像素来移动源图像中的像素以生成新图像。
对后者,引入了一个具有两个循环的框架,在每个循环中,面部动作和头部姿势信息分别被保留。以这两个循环命名,所提出的方法为双循环自动编码器(TAE)。
总的说来,TAE的任务是通过变形,来生成由面部动作改变的脸、姿势变化的脸和目标脸,总共三张脸。因面部动作改变的脸和由姿态改变的脸仅仅改变从源面部到目标面部的面部动作或姿态。下面,介绍TAE的详细架构,以解释它如何解决这两个问题。

从动作中学习表示

TAE是用同一个人不同面部动作和头部姿势的成对面部图像进行训练的。每一对图像都是从一个视频中采集的,视频中的对象在说话和移动,表情各异。将运动描述为两个面部帧之间的像素级位移。这两个图像被表示为源图像 I s I_s Is和目标图像 I t I_t It
在这里插入图片描述
其中区域感知编码器(Region-perceptive encoder)设计多个attention masks来感知信息丰富的区域,以数据驱动的方式自动了解局部区域。在这里插入图片描述

实验

在四个AU数据集上将TAE与其他子监督方法进行了比较。特征是来自TAE中encoder输出的facial-action embeddings。在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值