【ViViT】ViViT: A Video Vision Transformer 笔记

最新推荐文章于 2024-05-04 23:23:03 发布

zhy—bupt

最新推荐文章于 2024-05-04 23:23:03 发布

阅读量1k

点赞数

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/salari/article/details/123246415

版权

ViViT

摘要：

提出时空的token
将输入分解以变得高效
在小规模数据集上有效训练方法

引言：

vit 之前只用于大规模，因为缺少一些bias

- 文章提出了几个model用于视频分类，pure-transformer
- 如何有效地训练模型

结论：

提出了视频分类4个模型，
如何在小数据集上高效管理训练大容量模型
未来可以减除对图像预训练模型的依靠

ViViT模型：

两种embedding video clip方法：

- 在这里插入图片描述

构造的结构：

Spatio-temporal attention 复杂度随着视频增长
Factorised encoder spatial encoder只在相同时间帧上interaction 并加上了cls
Factorised self-attention 将第一种结构的self-attention拆成先spatial再temporal
Factorised dot-product attention temporal和spatial用不同的头并行计算，然后concat拼接

在这里插入图片描述

通过预训练模型初始化：

position embedding 视频模型所需的token是图片模型的几倍，采用”循环“的方式初始化
Embedding weights 采用展平的方式使得3d能够采用2d

在这里插入图片描述

或者采用“central frame initialisation”：

在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【ViViT】ViViT: A Video Vision Transformer 笔记

ViViT摘要：提出时空的token将输入分解以变得高效在小规模数据集上有效训练方法引言：vit 之前只用于大规模，因为缺少一些bias- 文章提出了几个model用于视频分类，pure-transformer- 如何有效地训练模型结论：提出了视频分类4个模型，如何在小数据集上高效管理训练大容量模型未来可以减除对图像预训练模型的依靠ViViT模型：两种embedding video clip方法：-构造的结构：Spatio-temporal attent
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。