A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection
题目:用于动作检测的语义与运动感知时空变换网络
作者:Matthew Korban; Peter Youngs; Scott T. Acton
源码:
摘要
本文提出了一种新颖的时空变换器网络,通过引入几个原创组件来检测未修剪视频中的动作。首先,多特征选择性语义注意力模型计算空间和运动特征之间的相关性,以适当地模拟不同动作语义之间的时空交互。其次,运动感知网络利用运动感知2D位置编码算法编码视频帧中动作语义的位置。这种运动感知机制记忆了当前方法无法利用的动作帧中的动态时空变化。第三,基于序列的时序注意力模型捕获动作帧中的异构时序依赖性。与传统的自然语言处理中主要旨在寻找语言词汇之间相似性的时序注意力不同,所提出的基于序列的时序注意力旨在确定视频帧之间的差异和相似性,这些差异和相似性共同定义了动作的含义。所提出的方法在四个时空动作数据集上超越了最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24和EPIC-Kitchen