【论文笔记】ABPN: Apex and Boundary Perception Network for Micro- and Macro-Expression Spotting

sssusan537

已于 2023-11-26 17:40:18 修改

阅读量273

点赞数

分类专栏：科研学习 # 视觉文章标签：论文阅读机器学习计算机视觉

于 2023-11-20 01:01:18 首次发布

本文链接：https://blog.csdn.net/i_want_money111/article/details/134498649

版权

科研学习同时被 2 个专栏收录

6 篇文章

订阅专栏

视觉

3 篇文章

订阅专栏

ABPN是一种专为ME和MaE检测设计的网络，包含VEM、PEM和EPGM。VEM通过光流提取运动特征，PEM评估帧类别概率，EPGM生成表情提议。文章强调了主方向光流的使用和优化策略，以及在MEGC2022数据集上的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ABPN

论文地址

实现代码

自己标上部分注释的代码

Apex and Boundary Perception Network，基于顶点和边界的感知网络，主要解决微观（ME）和宏观表情（MaE)检测（定位）任务的问题。

摘要：

ABPN主要由三个部分组成：

video encoding module (VEM)视频编码模块

该模块主要侧重于在光流运动估计的基础上，从长视频中提取空间运动特征。
probability evaluation module (PEM)概率评估模块

目的是评估帧应该属于的类别
expression proposal generation module (EPGM)表情提议生成模块

根据每帧类别的概率为ME和MaE生成建提议

采用主方向平均光流(MDMO)算法，通过计算光流差提取VEM中的面部运动特征，减轻头部运动和面部其他区域对ME识别的影响。然后，利用一维卷积层提取时间特征，并引入PEM来推断每帧属于顶点帧或边界帧的辅助概率。利用这些帧级辅助概率，EPGM进一步将不同类别的帧组合在一起，生成精确定位的表达建议。

在这里插入图片描述

主要贡献：

使用人工提取的特征来获得表达信息，减轻不相关的干扰
改进了BSN的方法，使其能够适用于ME定位任务
通过MEGC2022-Testset上的F1-score证明了所提方法的有效性。

video encoding module (VEM)视频编码模块

首先采用retinaface和SAN分别提取人脸的坐标和地标，为后续计算与动作单元相关的rois光流做准备。根据微表情发生时可能被激活的地标选择了12个区域

在这里插入图片描述

其次，使用TV-L1光流法计算roi的光流，并采用MDMO方法获得主方向的光流。然后，计算每个ROI
的主要方向光流之和和该之和的单位向量，并将两者的比值作为该区域的特征。

在这里插入图片描述
其中
为了减轻头部运动对ME定位的影响，计算全局光流来表示头部运动。由于与其他动作单元相比，鼻子区域的运
动可以看作是刚体运动，因此我们可以利用鼻子区域的光流来表示全局光流。和前面一样，通过计算鼻子区域的MDMO得
到的全局光流特征u G is来表示头部的运动。然后从全局光流特征中减去每个ROI的光流特征，可以有效地消除头部的运动。
这样就可以得到每个ROI区域的特征，并得到一个特征矩阵 𝑌 with dimension (N − 1 ) × 12来表示长度为N的视频的特征。