无卷积!谷歌提出ViViT:视频视觉Transformer

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者:请叫我东少 |  已授权转载(源:知乎)

https://zhuanlan.zhihu.com/p/370200419

ViViT: A Video Vision Transformer

论文: https://arxiv.org/abs/2103.15691

背景

  • 利用Transformer解决视频的问题,是ViT在视频输入上的应用

  • 视频的输入是图像输入的数多倍,Transformer的性能和输入token之间是平方关系,处理性能是一个很大的问题

  • 本文探究了视频数据在ViT上的优化,再进一步探究了四种不提供的特征融合提取方式的性能和效果

图像输入

本文讨论了两种直观的输入方式,一种为不同帧之间图像直接按照ViT的处理,转换为tokens,然后按照frames的顺序进行组合,另一种则将多帧直接进行组合,同时获取时间,空间上的一个token,这样能更有效融合时空信息

举个例子, 当输入32frames到模型中,t=4,则我们可以得到8 frames的tokens

模型结构

Model 1:Spatio-temporal attention

简单的将token直接拼接起来,输入到bert中

因为输入token和MSA的计算量成平方关系,所以这种方面效率最低

Model 2:Factorised encoder

使用后融合方面,每一组图像分别过L层的Atten,然后再融合,计算量大大减少

计算量为 O((h*w)^2+t*2)

层数会比model 1更多

Modal 3:Factorised self-attention

该结构将时间和空间的交互进行拆分,在空间上交互,只计算单独的attention,然后在时间上再计算一次atten,这样也能降低计算量

We observed that the order of spatial-then-temporal selfattention or temporal-then-spatial self-attention does not make a difference

先时间和先空间没有较大区别

本模型上不适用cls emb,这样更有利于进行维度变换

Model 4: Factorised dot-product attention

个模型和Model3十分相似,相当于并行版的Model3

训练细节

模型是以Vit为基础进行训练的,所以初始化需要进行特殊处理

Position emb: 复制t份出来,来适应多帧的处理

Therefore, at initialisation, all tokens with the same spatial index have the same embedding which is then fine-tuned.

Embedding emb:

2d的输入没什么好说的

对于3d的输入,提供了两种不同的方式

公式9可以实现在初始的情况下,等价于只用的1帧的情况,参数由模型自己去学习

Transformer Weight:

In this case, we initialise the spatial MSA module from the pretrained module, and initialise all weights of the temporal MSA with zeroes

实验结果

ViViT-B是使用3d输入的ViT,论文的改进版本

We also consider an additional baseline (last row), based on Model 2, where we do not use any temporal transformer, and simply average pool the frame-level representations from the spatial encoder before classifying.

model3和model4虽然参数更少,但是时延都增加了不少,猜测是因为向量维度变换的关系

model1在空间和时间上都可以做到最灵活的特征融合,所以效果也是最好的

论文还附带了几个消融实验,感兴趣的可以查一下原文

1. 输入Frames融合

L_t为Model2上,单个分支上帧的数量,从这个结果上看,还是提前进行融合,能带来更好的效果

2. 模型大小

论文中测试了Large和Base两种规模, 从结果上看,L对性能的增益远不及计算量的增加

3. Tubelet的效果

16x4应该是指16帧图像,按照t=4来进行融合,所以实际输入帧的数量应该为4

论文PDF和代码下载

后台回复:ViViT,即可下载上述论文PDF

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF

重磅!图像分割交流群成立

扫码添加CVer助手,可申请加入CVer-图像分割 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如图像分割+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群

▲点击上方卡片,关注CVer公众号

整理不易,请给CVer点赞和在看

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值