目录
ActionFormer: Localizing Moments of Actions with Transformers
3 ActionFormer: A Simple Transformer Model for Temporal Action Localization
A Simple Representation for Action Localization(动作定位的一个简单表示)
3.3 ActionFormer: Model Design
ActionFormer: Localizing Moments of Actions with Transformers
摘要
基于自我注意的Transformer模型在图像分类和目标检测方面展示了令人印象深刻的结果,最近在视频理解方面也展示了令人印象深刻的结果。受此启发,作者研究了Transformer网络在视频中用于时间动作定位的应用。
ActionFormer 一个简单而强大的模型,可以及时识别动作,并在一个镜头中识别它们的类别,不需要使用action proposals或依赖预定义的anchor windows。ActionFormer 将多尺度特征表示与局部自注意力相结合,使用轻型解码器对每个时刻进行分类并估计相应的动作边界。这种精心安排的设计结果在以前的工作上的重大改进。没有bells and whistles,ActionFormer 实现71.0% mAP在tIoU=0.5上的THUMOS14,超过最佳先验模型14.1个绝对百分点。此外,ActionFormer在ActivityNet 1.3(平均mAP 36.6%)和EPIC-Kitchens 100(平均mAP比之前的作品高出13.5%)上展示了强劲的结果。
论文: