Video Transformer Network

最新推荐文章于 2024-06-20 09:37:48 发布

Amusi（CVer）

最新推荐文章于 2024-06-20 09:37:48 发布

阅读量3.3k

点赞数 2

分类专栏：计算机视觉论文速递 Transformer 文章标签：人工智能深度学习机器学习计算机视觉自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/amusi1994/article/details/113572072

版权

VTN是一种基于Transformer的视频识别框架，抛弃传统3D ConvNets，通过关注视频序列信息实现动作分类。相较于其他方法，VTN训练速度提升16.1倍，运行速度提升5.1倍，GFLOP减少1.5倍。在Kinetics-400上取得竞争性结果，代码和预训练模型即将开源。

摘要由CSDN通过智能技术生成

可与现有backbone结合，使其具有超强视频分类/理解的能力，如ViT/DeiT+ VTN 真香！训练速度提高了16.1倍，运行速度提高了5.1倍，代码和预训练模型即将开源！

注1：文末附【Transformer】流群

Video Transformer Network
在这里插入图片描述

作者单位：Theator公司
论文：https://arxiv.org/abs/2102.00719

本文介绍了VTN，这是一种基于Transformer的视频识别框架。受视觉Transformer最新发展的启发，我们放弃了基于3D ConvNets的视频动作识别标准方法，并介绍了一种通过关注整个视频序列信息对动作进行分类的方法。
在这里插入图片描述
我们的方法是通用的，并且建立在任何给定的2D空间网络之上。就运行时间而言，与其他最新方法相比，它在推理期间的训练速度提高了16.1倍，运行速度提高了5.1倍，同时保持了竞争优势。它通过单次端到端传递就可以进行完整的视频分析，同时所需的GFLOP减少了1.5倍。

实验结果

我们在Kinetics-400上报告了竞争性结果，并提出了VTN属性的消融研究以及准确性和推理速度之间的权衡。

最低0.47元/天解锁文章

Amusi（CVer）

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Video Transformer Network

可与现有backbone结合，使其具有超强视频分类/理解的能力，如ViT/DeiT+ VTN 真香！训练速度提高了16.1倍，运行速度提高了5.1倍，代码和预训练模型即将开源！注1：文末附【Transformer】流群Video Transformer Network作者单位：Theator公司论文：https://arxiv.org/abs/2102.00719本文介绍了VTN，这是一种基于Transformer的视频识别框架。受视觉Transformer最新发展的启发，我们放弃了基于3
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。