无卷积！谷歌提出ViViT：视频视觉Transformer

最新推荐文章于 2024-08-15 09:31:54 发布

Amusi（CVer）

最新推荐文章于 2024-08-15 09:31:54 发布

阅读量2.2k

点赞数 1

文章标签：计算机视觉机器学习人工智能深度学习 python

原文链接：https://zhuanlan.zhihu.com/p/370200419

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：请叫我东少 | 已授权转载（源：知乎）

https://zhuanlan.zhihu.com/p/370200419

ViViT: A Video Vision Transformer

论文: https://arxiv.org/abs/2103.15691

背景

利用Transformer解决视频的问题，是ViT在视频输入上的应用
视频的输入是图像输入的数多倍，Transformer的性能和输入token之间是平方关系，处理性能是一个很大的问题
本文探究了视频数据在ViT上的优化，再进一步探究了四种不提供的特征融合提取方式的性能和效果

图像输入

本文讨论了两种直观的输入方式，一种为不同帧之间图像直接按照ViT的处理，转换为tokens，然后按照frames的顺序进行组合，另一种则将多帧直接进行组合，同时获取时间，空间上的一个token，这样能更有效融合时空信息

举个例子，当输入32frames到模型中，t=4，则我们可以得到8 frames的tokens

模型结构

Model 1：Spatio-temporal attention

简单的将token直接拼接起来，输入到bert中

因为输入token和MSA的计算量成平方关系，所以这种方面效率最低

Model 2：Factorised encoder

使用后融合方面，每一组图像分别过L层的Atten，然后再融合，计算量大大减少

计算量为 O((h*w)^2+t*2)

层数会比model 1更多

Modal 3：Factorised self-attention

该结构将时间和空间的交互进行拆分，在空间上交互，只计算单独的attention，然后在时间上再计算一次atten，这样也能降低计算量

We observed that the order of spatial-then-temporal selfattention or temporal-then-spatial self-attention does not make a difference

先时间和先空间没有较大区别

本模型上不适用cls emb，这样更有利于进行维度变换

Model 4: Factorised dot-product attention

个模型和Model3十分相似，相当于并行版的Model3

训练细节

模型是以Vit为基础进行训练的，所以初始化需要进行特殊处理

Position emb：复制t份出来，来适应多帧的处理

Therefore, at initialisation, all tokens with the same spatial index have the same embedding which is then fine-tuned.

Embedding emb：

2d的输入没什么好说的

对于3d的输入，提供了两种不同的方式

公式9可以实现在初始的情况下，等价于只用的1帧的情况，参数由模型自己去学习

Transformer Weight：

In this case, we initialise the spatial MSA module from the pretrained module, and initialise all weights of the temporal MSA with zeroes

实验结果

ViViT-B是使用3d输入的ViT，论文的改进版本

We also consider an additional baseline (last row), based on Model 2, where we do not use any temporal transformer, and simply average pool the frame-level representations from the spatial encoder before classifying.

model3和model4虽然参数更少，但是时延都增加了不少，猜测是因为向量维度变换的关系

model1在空间和时间上都可以做到最灵活的特征融合，所以效果也是最好的

论文还附带了几个消融实验，感兴趣的可以查一下原文

1. 输入Frames融合

L_t为Model2上，单个分支上帧的数量，从这个结果上看，还是提前进行融合，能带来更好的效果

2. 模型大小

论文中测试了Large和Base两种规模，从结果上看，L对性能的增益远不及计算量的增加

3. Tubelet的效果

16x4应该是指16帧图像，按照t=4来进行融合，所以实际输入帧的数量应该为4

论文PDF和代码下载

后台回复：ViViT，即可下载上述论文PDF

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF

重磅！图像分割交流群成立

扫码添加CVer助手，可申请加入CVer-图像分割 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群