【MTV】Multiview Transformers for Video Recognition 笔记

MTV

摘要

MTV由独自分开的encoder组成,并通过横向连接

做了许多消融实验,结果比单个view的准确度高,计算成本低

在五个通用数据集上效果好,在大规模预训练基础上效果更好

引言

图像领域,采用金字塔形多尺度处理表现好,例如slowfast。但由于pooling和下采样部分时空信息丢失;

MTV不依靠金字塔结构获取多尺度信息,构建transformer视频理解模型:

  • 慢流用更小的encoder

  • 采用不同‘’view‘,从不同维度提取token,再分别进入transformer横向链接

  • views越多,准确度上升

    在这里插入图片描述

结论

基于处理多种"view"提出了处理多尺度时间信息的transformer模型

有较为良好的性能,在五个最常用的数据集上取得最优结果

相关工作

  • 受ViT,ViViT,Timesformer启发
  • 多尺度计算在计算机视觉领域非常有效

同时处理多个view比增加transfomer深度提高准确度更大

通过变化线性投射时空管道的size获取不同的view

模型

  • 基于ViT与ViViT
  • 多视角token化

    定义一个view为通过一套尺寸固定的管道所呈现的视频表现

    对于不同view可采用不同的卷积核,不同的大小,小尺度卷积核会产生更多的token

    小尺度会获取更加精确的运动信息,大尺度会获取缓慢变化的场景信息

  • 多视角transformer
    • 多视角encoder

      只对来自同一时刻的token做self-attention,仿照ViViT的 Factorised Encoder

      没必要对所有时空域做self-attention

    • 横向连接融合信息

      在这里插入图片描述

      Cross-view attention (CVA) 将view根据token的多少排序,连接两个相邻的view。因为尺度不一样,需要做投射,投射后将两者融合,相当于再做了个attention:

      在这里插入图片描述

      Bottleneck tokens 通过B瓶颈token来传递信息。同样将view根据token的多少排序,连接两个相邻的view。将B token直接拼接到输入的token,然后将输出线性投射到前一个view的维度,然后再拼接到输入的token上。整个过程从含有更多的token的view开始。这些B token通过随机初始化。

      MLP fusion 在每个encoder 层中在MLP块前融合,使用直接拼接的方法融合进前一个view

    • 从每个视角提取一个token,通过一个global encoder生成分类结果

      提取每一个view的cls token,再通过一个transformer encoder处理

实验

详细见论文,3种fusion中CVA效果最好。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值