Expression Snippet Transformer for Robust Video-based Facial Expression Recognition 【论文翻译】
Transformer的近期成功为各种视觉理解任务提供了新的方向,包括基于视频的面部表情识别(FER)。通过有效建模视觉关系,Transformer在描述复杂模式上表现出了强大的能力。然而,Transformer在捕捉细微的面部表情动作时表现不佳,因为许多视频中的表情动作过于微小,难以提取有意义的时空关系,从而无法实现稳健的性能。为此,我们提出将每个视频分解为一系列表情片段,每个片段包含少量面部动作,并分别增强Transformer在建模片段内和片段间视觉关系的能力,最终得到(EST)。
原创
2024-09-11 22:31:00 ·
1067 阅读 ·
0 评论