继 Swin Transformer 之后，MSRA 开源 Video Swin Transformer，在视频数据集上SOTA

最新推荐文章于 2024-07-10 14:45:10 发布

我爱计算机视觉

最新推荐文章于 2024-07-10 14:45:10 发布

阅读量1.1k

点赞数

文章标签：大数据 python 计算机视觉神经网络机器学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/119814344

版权

关注公众号，发现CV技术之美

继上半年分享的『基于Transformer的通用视觉架构：Swin-Transformer带来多任务大范围性能提升』、『Swin Transformer为主干，清华等提出MoBY自监督学习方法，代码已开源』，Swin Transformer 惊艳所有人之后，MSRA 开源 〖Video Swin Transformer〗，效果如何？

详细信息如下：

论文链接：https://arxiv.org/abs/2106.13230
项目链接：https://github.com/SwinTransformer/Video-Swin-Transformer

导言：

由于Transformer强大的建模能力，视觉任务的主流Backbone逐渐从CNN变成了Transformer，其中纯Transformer的结构也在各个视频任务的数据集上也达到了SOTA的性能。这些视频模型都是基于Transformer结构来捕获patch之间全局的时间和空间维度上的关系。

在本文中，作者提出了video Transformer中的局部性假设偏置，这能使Transformer在速度和精度上达到更好的trade-off，这在以前的那些基于捕获时空域上全局关系的Transformer上是做不到的。在本文中，视频结构中的局部性是通过Swin Transformer实现的。

另外，由于视频和图片本身就存在很大的联系，而且本文也在用了Swin Transformer结构，所以作者采用了在图片数据集上预训练好的模型模型来初始化，以提高视频模型的泛化能力。本文提出的方法在广泛的视频识别基准数据集上实现了SOTA的准确性，包括动作识别（action recognition）和时间建模（temporal modeling）。

Motivation

基于卷积的主干网络长期以来一直主导着计算机视觉中的视觉建模任务。然而，目前图像分类的主干网络，正在进行从卷积神经网络(CNN)到Transformer的转变。这一趋势始于Vision Transformer(ViT)的引入，ViT成功之处主要在于捕获了不重叠Patch之间的全局关系。ViT在图像上的巨大成功导致了基于Transformer结构的视频识别任务的研究。

对于以前的卷积模型，视频任务的Backbone主要就是增加了一个卷积维度用于捕获时间上的关系。由于联合时空（时间-空间）建模比较费计算资源并且不容易优化，一些研究工作者也提出了分解时空建模，来达到更好的速度-精度权衡。在Transformer中，也有类似的工作，同样起到了比较好的速度-精度权衡作用。

在本文中，作者提出了一种基于Transformer的视频识别主干网络结构，并且它在效率上超过了以前的分解时空建模的模型。因为视频数据在时间和空间上存在局部性（也就是说：在时空距离上更接近的像素更有可能相关 ），所以作者在网络结构中利用了这个假设偏置，所以达到了更高的建模效率。由于这一特性，全局的时空Self-Attention可以近似为多个局部Self-Attention的计算，从而大大节省计算和模型规模。

作者通过Swin Transformer[1]来实现这一点，因为Swin Transformer也考虑了空间局部性、层次结构和平移等变性等假设偏置。

作者在本文提出的Video Swin Transformer，严格遵循原始Swin Transformer的层次结构，但将局部注意力计算的范围从空间域扩展到时空域。由于局部注意力是在非重叠窗口上计算的，因此原始Swin Transformer的滑动窗口机制也被重新定义了，以适应时间和空间两个域的信息。

由于Video Swin Transformer改编于Swin Transformer，因此Video Swin Transformer可以用在大型图像数据集上预训练的模型进行初始化。通过用在ImageNet-21K上预训练的模型初始化，作者发现，主干网络的学习速率需要比head更小（head是随机初始化的）。因为主干网络在拟合新的视频输入时，需要慢慢地忘记了预训练的参数和数据，从而得到更好的泛化性能。这一现象为进一步研究如何更好地利用预训练过的权值提供了新的方向。

方法

2.1 Overall Architecture

Video Swin Transformer的总体结构如上图所示。输入的视频数据为

的张量，由T帧的H×W×3的图片组成。在Video Swin Transformer中，作者用的3D patch的大小为 2×4×4×3，因此就可以得到

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
继 Swin Transformer 之后，MSRA 开源 Video Swin Transformer，在视频数据集上SOTA

关注公众号，发现CV技术之美继上半年分享的『基于Transformer的通用视觉架构：Swin-Transformer带来多任务大范围性能提升』、『Swin Transformer为主干，...
复制链接

扫一扫