行为识别 - ViViT: A Video Vision Transformer

最新推荐文章于 2025-03-30 18:15:00 发布

清欢守护者

最新推荐文章于 2025-03-30 18:15:00 发布

阅读量5.8k

点赞数 14

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/115986067

版权

CV 专栏收录该内容

98 篇文章

订阅专栏

本文详细介绍了Google Research在2021年提出的纯Transformer应用于视频分类的研究，提出两种时空token构造方法（均匀帧采样和管状嵌入）和三种时空Transformer设计变体。实验涵盖了不同数据增强、输入尺寸和帧数的比较，为视频Transformer领域的研究提供了基础。尽管缺乏实际应用的官方实现，该论文为后续研究者提供了宝贵的采坑经验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

0. 前言

相关资料：
- arxiv
- github（非官方实现，还没做完），官方版的说要发布但暂时还没有看到
- 论文解读
论文基本信息
- 领域：行为识别
- 作者单位：Google Research
- 发表时间：2021.3
一句话总结：提出了两种时空token构建方式以及3中时空transformer设计方式

1. 要解决什么问题

如何使用纯 Transformer 实现视频分类。

2. 用了什么方法

总体结构如下图所示，主要内容就是：
- 如何构建时空token，即左侧灰色框
- 如何设计Transformer结构。一共提出四种结构，第一种是最朴素的，后三种都是构建时间、空间的transformer/self-attention

如何构建token？
- 换句话说，如何将一个视频转换为一组序列，作为Transformer的输入。
- 有两种方法，如下图所示
  - Uniform frame sampling：就是先提取帧，然后每一帧按照ViT的方法提取token，然后把不同帧的token拼接起来作为输入。
  - Tubelet embedding：前一种方法是提取2D图像特征，这种方法是提取立方体，假设每个tublet的shape是t, w, h，那就是说没t帧提取一次特征，取每一帧相同位置的w, hpatch组成输入

Transformer 结构的变种一
- 直接将前面提取到的时空token作为transformer的属于，使用普通transformer结构得到最终结果。
- 这个没啥好说的，就是最普通、最直接的方法。
Transformer 结构的变种二 - Factorised encoder
- 使用两个 transformer
- 第一个是 spatial transformer，输入是某一帧的多个token，输出一个token
- 第二个是temporal transformer，输入是前一步多帧的token（每帧对应一个token），输出结果就通过mlp进行分类