ABPN
Apex and Boundary Perception Network,基于顶点和边界的感知网络,主要解决微观(ME)和宏观表情(MaE)检测(定位)任务的问题。
摘要:
ABPN主要由三个部分组成:
-
video encoding module (VEM)视频编码模块
该模块主要侧重于在光流运动估计的基础上,从长视频中提取空间运动特征。
-
probability evaluation module (PEM)概率评估模块
目的是评估帧应该属于的类别
-
expression proposal generation module (EPGM)表情提议生成模块
根据每帧类别的概率为ME和MaE生成建提议
采用主方向平均光流(MDMO)算法,通过计算光流差提取VEM中的面部运动特征,减轻头部运动和面部其他区域对ME识别的影响。然后,利用一维卷积层提取时间特征,并引入PEM来推断每帧属于顶点帧或边界帧的辅助概率。利用这些帧级辅助概率,EPGM进一步将不同类别的帧组合在一起,生成精确定位的表达建议。
主要贡献:
- 使用人工提取的特征来获得表达信息,减轻不相关的干扰
- 改进了BSN的方法,使其能够适用于ME定位任务
- 通过MEGC2022-Testset上的F1-score证明了所提方法的有效性。
video encoding module (VEM)视频编码模块
首先采用retinaface和SAN分别提取人脸的坐标和地标,为后续计算与动作单元相关的rois光流做准备。根据微表情发生时可能被激活的地标选择了12个区域
其次,使用TV-L1光流法计算roi的光流,并采用MDMO方法获得主方向的光流。然后,计算每个ROI
的主要方向光流之和和该之和的单位向量,并将两者的比值作为该区域的特征。
其中
为了减轻头部运动对ME定位的影响,计算全局光流来表示头部运动。由于与其他动作单元相比,鼻子区域的运
动可以看作是刚体运动,因此我们可以利用鼻子区域的光流来表示全局光流。和前面一样,通过计算鼻子区域的MDMO得
到的全局光流特征u G is来表示头部的运动。然后从全局光流特征中减去每个ROI的光流特征,可以有效地消除头部的运动。
这样就可以得到每个ROI区域的特征,并得到一个特征矩阵 𝑌 with dimension (N − 1 ) × 12来表示长度为N的视频的特征。
probability evaluation module (PEM)概率评估模块
模块评估每一帧的概率,表明一帧是在表达式内还是在表达式外,以及一帧是特殊帧(包括顶点和边界帧)还是正常帧。这些对应于三个分类任务:评估一帧是否为顶点帧的二值分类任务;评估一帧是开始帧、结束帧还是正常帧的多分类任务;评估一帧是否属于一个表情快照的二元分类任务。应用两组这样的任务来区分ME和MaE。
卷积网络结构:
- 概率评估模块由4个一维卷积层组成,以视频编码模块的特征为输入。
- 为了使模型学习表达式的时态信息,使用一维卷积层作为网络的主要组成部分
- 除了最后一层,在每个卷积层之后应用一维批处理归一化层和Relu激活函数,因为它专门用于分类任务。
- 对于二元分类任务,应用sigmoid作为激活函数
- 对于三类分类任务,采用softmax作为激活函数
- 将stride设置为1,以保持输出的时间长度与输入相同,同时,为了在不增加模型参数复杂性的情况下增加模型的接受野,在最后两层使用了扩张卷积。
expression proposal generation module (EPGM)表情提议生成模块
EPGM的目的是根据每帧类别的概率生成提议。顶点框架在ME剪辑中强度最高,可以很容易地与其他框架进行比较。因此,
首先筛选顶点帧,确定顶点帧的候选集,然后围绕顶点帧筛选开始帧和结束帧,比较概率确定候选集,最后通过设置的条件来生成提议。
优化
使用两组损失函数来分别针对 ME 和 MaE 进行优化
ME:
MaE:
表情识别的损失函数是由Apex损失、start-end-normal 分类损失和expression损失构成
总损失为:
数据集
数据集:MEGC2022
实验结果: