VTN:视频Transformer网络

VTN是一种基于Transformer的视频识别框架,替代传统3D ConvNets,提高训练速度16.1倍,运行速度5.1倍,同时保持高竞争力。它在单次端到端传递中完成视频分析,减少GFLOP,且将在Kinetics-400上展示竞争性结果。代码和预训练模型即将开源。
摘要由CSDN通过智能技术生成

可与现有backbone结合,使其具有超强视频分类/理解的能力,如ViT/DeiT+ VTN 真香!训练速度提高了16.1倍,运行速度提高了5.1倍,代码和预训练模型即将开源!

注1:文末附【Transformer】流群

Video Transformer Network
在这里插入图片描述

  • 作者单位:Theator公司
  • 论文:https://arxiv.org/abs/2102.00719

本文介绍了VTN,这是一种基于Transformer的视频识别框架。 受视觉Transformer最新发展的启发,我们放弃了基于3D ConvNets的视频动作识别标准方法,并介绍了一种通过关注整个视频序列信息对动作进行分类的方法。
在这里插入图片描述
我们的方法是通用的,并且建立在任何给定的2D空间网络之上。就运行时间而言,与其他最新方法相比,它在推理期间的训练速度提高了16.1倍,运行速度提高了5.1倍,同时保持了竞争优势。 它通过单次端到端传递就可以进行完整的视频分析,同时所需的GFLOP减少了1.5倍。

实验结果

我们在Kinetics-400上报告了竞争性结果,并提出了VTN属性的消融研究以及准确性和推理速度之间的权衡。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值