CVPR 2021 ViViT: A Video Vision Transformer

本文介绍了一种基于transformer的视频分类方法——ViViT,受Vision Transformer(ViT)启发,针对视频的长时上下文关系建模。通过预训练模型初始化和分解模型以提高效率,实现在多个视频分类基准上达到最先进的结果。
摘要由CSDN通过智能技术生成
动机
  1. transformer的优势。

    自AlexNet以来,基于深度卷积神经网络的方法已经在许多标准数据集上提高了视觉问题的技术水平。同时,序列到序列建模(例如自然语言处理)中最突出的选择架构是transformer,它不使用卷积,而是基于多头自注意力。这个操作在建模长期依赖关系时特别有效,并且允许模型处理输入序列中的所有元素。这与卷积形成鲜明对比,卷积中相应的“感受野”是有限的并且随着网络的深度线性增长。

  2. 由于transformer缺乏卷积的一些归纳偏好,它们似乎需要更多的数据或更强的正则化。

    NLP中基于注意力的模型的成功重新启发了计算机视觉中将transformer集成到CNN中的方法,以及一些完全取代卷积的尝试。然而,它是仅仅在最近的Vision Transformer(ViT)中,基于纯Transformer的体系结构在图像分类方面的表现超过了卷积的体系结构。Doso-Vitskiy等人密切跟随的原始transformer架构,并注意到它的主要优点是在大范围内观察到的–由于transformer缺乏卷积的一些归纳偏好(如平移同变性),它们似乎需要更多的数据或更强的正则化。

  3. 受ViT的启发,以及基于注意力的模型是视频中长时上下文关系建模的直观选择这一事实,本论文开发了几种基于transformer的视频分类模型。

    当前,性能最好的模型是基于深度三维卷积结构的,它是图像分类CNNs的自然扩展。最近,这些模型通过将自注意力纳入其后面的层中而得到了增强,以更好地捕捉长时赖。

方法
简介

提出了一种基于纯transformer模型的视频分类方法。在这个架构中执行的主要操作是自注意力,并且它是根据本论文从输入视频中提取的一系列时空token来计算的。为了有效地处理视频中可能遇到的大量时空token,本论文提出了几种沿空间和时间维分解本论文的模型的方法,以提高效率和可伸缩性。此外,为了在较小的数据集上有效地训练本论文的模型,本论文展示了如何通过训练和利用预训练的图像模型来调整本论文的模型。

本论文还注意到,卷积模型已经被社区发展了几年,因此有许多与这种模型相关的“最佳实践”。由于纯transformer模型具有不同的特性,本论文需要确定此类架构的最佳设计选择。本论文对tokenisation策略、模型结构和规则化方法进行了深入的分析。根据这一分析,本论文在多个标准视频分类基准(包括Kinetics 400和600、Epic、Kitchens100,Something-Somethingv2和 Moments in Time)上获得了最先进的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值