《Video Action Transformer Network》

本文介绍了《Video Action Transformer Network》论文,该模型利用transformer结构结合I3D和RPN处理视频动作检测和分类。通过考虑时序上下文和周围物体,提升识别准确性。在AVA数据集上取得25%的mAP值,实验表明其优于传统I3D head方法。
摘要由CSDN通过智能技术生成

这周阅读了《Video Action Transformer Network》这篇文章,发表于2019年度的CVPR,并且做了oral talk,作者是卡内基梅隆和Google的研究人员,代码开源在:http://rohitgirdhar.github.io/ActionTransformer

模型的目标是针对视频中的某一帧进行动作的检测和分类(此帧中包含多个人物和不同的动作,类似于目标检测),主要的思路是借鉴transformer结构将视频中前后的信息加入最终进行分类和定位的向量。优势在于使模型能够考虑到目标之外的相关物体带来的语义信息,这对于动作的识别是十分重要的。行为识别和定位的难点通常在于推断一个人的行为时不仅需要考虑目标本身的动作,其周围的物体对于推断同样重要。同样在视频中同样的需要考虑时序上的上下文关系,例如对“watch a person”进行识别,当人从帧中消失之后,同样需要进行推理来判断到底看的是人还是其他什么东西。


作者提出了改进的action transformer结构用于视频中的动作定位,其结构如下:其结合了I3D模型和RPN模型,分别提供基础的特征和采样机制。模型的训练和测试均在AVA数据集进行,最终性能在25%的mAP值

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值