《Video Action Transformer Network》

最新推荐文章于 2024-06-17 09:50:50 发布

为什么四川人喜欢日李先人

最新推荐文章于 2024-06-17 09:50:50 发布

阅读量3.4k

点赞数 3

分类专栏：深度学习文章标签：动作分类

本文链接：https://blog.csdn.net/qq_34325086/article/details/103135607

版权

本文介绍了《Video Action Transformer Network》论文，该模型利用transformer结构结合I3D和RPN处理视频动作检测和分类。通过考虑时序上下文和周围物体，提升识别准确性。在AVA数据集上取得25%的mAP值，实验表明其优于传统I3D head方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这周阅读了《Video Action Transformer Network》这篇文章，发表于2019年度的CVPR，并且做了oral talk，作者是卡内基梅隆和Google的研究人员，代码开源在：http://rohitgirdhar.github.io/ActionTransformer。

模型的目标是针对视频中的某一帧进行动作的检测和分类（此帧中包含多个人物和不同的动作，类似于目标检测），主要的思路是借鉴transformer结构将视频中前后的信息加入最终进行分类和定位的向量。优势在于使模型能够考虑到目标之外的相关物体带来的语义信息，这对于动作的识别是十分重要的。行为识别和定位的难点通常在于推断一个人的行为时不仅需要考虑目标本身的动作，其周围的物体对于推断同样重要。同样在视频中同样的需要考虑时序上的上下文关系，例如对“watch a person”进行识别，当人从帧中消失之后，同样需要进行推理来判断到底看的是人还是其他什么东西。

作者提出了改进的action transformer结构用于视频中的动作定位，其结构如下：其结合了I3D模型和RPN模型，分别提供基础的特征和采样机制。模型的训练和测试均在AVA数据集进行，最终性能在25%的mAP值