可与现有backbone结合,使其具有超强视频分类/理解的能力,如ViT/DeiT+ VTN 真香!训练速度提高了16.1倍,运行速度提高了5.1倍,代码和预训练模型即将开源!
注1:文末附【Transformer】流群
Video Transformer Network
- 作者单位:Theator公司
- 论文:https://arxiv.org/abs/2102.00719
本文介绍了VTN,这是一种基于Transformer的视频识别框架。 受视觉Transformer最新发展的启发,我们放弃了基于3D ConvNets的视频动作识别标准方法,并介绍了一种通过关注整个视频序列信息对动作进行分类的方法。
我们的方法是通用的,并且建立在任何给定的2D空间网络之上。就运行时间而言,与其他最新方法相比,它在推理期间的训练速度提高了16.1倍,运行速度提高了5.1倍,同时保持了竞争优势。 它通过单次端到端传递就可以进行完整的视频分析,同时所需的GFLOP减少了1.5倍。
实验结果
我们在Kinetics-400上报告了竞争性结果,并提出了VTN属性的消融研究以及准确性和推理速度之间的权衡。