这周阅读了《Video Action Transformer Network》这篇文章,发表于2019年度的CVPR,并且做了oral talk,作者是卡内基梅隆和Google的研究人员,代码开源在:http://rohitgirdhar.github.io/ActionTransformer。
模型的目标是针对视频中的某一帧进行动作的检测和分类(此帧中包含多个人物和不同的动作,类似于目标检测),主要的思路是借鉴transformer结构将视频中前后的信息加入最终进行分类和定位的向量。优势在于使模型能够考虑到目标之外的相关物体带来的语义信息,这对于动作的识别是十分重要的。行为识别和定位的难点通常在于推断一个人的行为时不仅需要考虑目标本身的动作,其周围的物体对于推断同样重要。同样在视频中同样的需要考虑时序上的上下文关系,例如对“watch a person”进行识别,当人从帧中消失之后,同样需要进行推理来判断到底看的是人还是其他什么东西。
作者提出了改进的action transformer结构用于视频中的动作定位,其结构如下:其结合了I3D模型和RPN模型,分别提供基础的特征和采样机制。模型的训练和测试均在AVA数据集进行,最终性能在25%的mAP值