【ViViT】ViViT: A Video Vision Transformer 笔记

ViViT

摘要:
  • 提出时空的token
  • 将输入分解以变得高效
  • 在小规模数据集上有效训练方法
引言:

vit 之前只用于大规模,因为缺少一些bias

- 文章提出了几个model用于视频分类,pure-transformer
- 如何有效地训练模型
结论:
  • 提出了视频分类4个模型,
  • 如何在小数据集上高效管理训练大容量模型
  • 未来可以减除对图像预训练模型的依靠
ViViT模型:

两种embedding video clip方法:

  • 在这里插入图片描述

-在这里插入图片描述

构造的结构:

  • Spatio-temporal attention 复杂度随着视频增长

  • Factorised encoder spatial encoder只在相同时间帧上interaction 并加上了cls

  • Factorised self-attention 将第一种结构的self-attention拆成先spatial再temporal

  • Factorised dot-product attention temporal和spatial用不同的头并行计算,然后concat拼接

在这里插入图片描述

通过预训练模型初始化:

  • position embedding 视频模型所需的token是图片模型的几倍,采用”循环“的方式初始化
  • Embedding weights 采用展平的方式使得3d能够采用2d

在这里插入图片描述

​ 或者采用“central frame initialisation”:

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值