【MTV】Multiview Transformers for Video Recognition 笔记

MTV

摘要

MTV由独自分开的encoder组成,并通过横向连接

做了许多消融实验,结果比单个view的准确度高,计算成本低

在五个通用数据集上效果好,在大规模预训练基础上效果更好

引言

图像领域,采用金字塔形多尺度处理表现好,例如slowfast。但由于pooling和下采样部分时空信息丢失;

MTV不依靠金字塔结构获取多尺度信息,构建transformer视频理解模型:

  • 慢流用更小的encoder

  • 采用不同‘’view‘,从不同维度提取token,再分别进入transformer横向链接

  • views越多,准确度上升

    在这里插入图片描述

结论

基于处理多种"view"提出了处理多尺度时间信息的transformer模型

有较为良好的性能,在五个最常用的数据集上取得最优结果

相关工作

  • 受ViT,ViViT,Timesformer启发
  • 多尺度计算在计算机视觉领域非常有效

同时处理多个view比增加transfomer深度提高准确度更大

通过变化线性投射时空管道的size获取不同的view

模型

  • 基于ViT与ViViT
  • 多视角token化

    定义一个view为通过一套尺寸固定的管道所呈现的视频表现

    对于不同view可采用不同的卷积核,不同的大小,小尺度卷积核会产生更多的token

    小尺度会获取更加精确的运动信息,大尺度会获取缓慢变化的场景信息

  • 多视角transformer
    • 多视角encoder

      只对来自同一时刻的token做self-attention,仿照ViViT的 Factorised Encoder

      没必要对所有时空域做self-attention

    • 横向连接融合信息

      在这里插入图片描述

      Cross-view attention (CVA) 将view根据token的多少排序,连接两个相邻的view。因为尺度不一样,需要做投射,投射后将两者融合,相当于再做了个attention:

      在这里插入图片描述

      Bottleneck tokens 通过B瓶颈token来传递信息。同样将view根据token的多少排序,连接两个相邻的view。将B token直接拼接到输入的token,然后将输出线性投射到前一个view的维度,然后再拼接到输入的token上。整个过程从含有更多的token的view开始。这些B token通过随机初始化。

      MLP fusion 在每个encoder 层中在MLP块前融合,使用直接拼接的方法融合进前一个view

    • 从每个视角提取一个token,通过一个global encoder生成分类结果

      提取每一个view的cls token,再通过一个transformer encoder处理

实验

详细见论文,3种fusion中CVA效果最好。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 对比多视角编码(Contrastive Multiview Coding)是一种用于自监督学习的方法,它通过对同一样本的不同视角进行编码,来学习样本的特征表示。该方法可以在无需标注数据的情况下,从大量未标注的数据中学习到有用的特征表示,从而提高模型的泛化能力和性能。 ### 回答2: 对比多视图编码(Contrastive Multiview Coding, CMC)是一种新兴的自监督学习方法,是一种利用多个视角来学习数据特征的方法。相比于从传统的数据集中学习高级特征来说,CMC的作用在于通过理解不同数据视图之间的关系来代替手工标注或人为制造标签。 CMC方法将多个视角数据(例如从不同角度或时间拍摄的图像)随机组合进行研究,以便能够更好地训练出模型。这种方法的优点在于,它能够学习具有普适性的判别性特征,同时保留训练数据的复杂性。这意味着CMC方法在不依赖于大量标签数据的情况下,仍能够有效提供有用的表示特征。 CMC从理论上只需要一个loss function来完成整个模型的训练,这一点使它成为自监督学习中的热门方法之一。 它在应用中的一个重要应用是在计算机视觉领域,如图像分类、物体检测和语义分割等方面。它已经在许多计算机视觉任务中表现优异。 总之,对比多视图编码是一种适用于多视图学习的先进方法,因为它在利用不同视图之间的相似性来训练模型时非常有效,因此被广泛应用于计算机视觉领域。 ### 回答3: 对比多视图编码(Contrastive Multiview Coding,CMC)是一种新的自监督表示学习方法。它利用多视图(多角度、多尺度、多剪裁的)数据来学习特征表达,从而生成可区分、可重用的低维嵌入。该方法通常用于解决少标注数据问题,因为不像监督学习方法,它不需要标注在先。 CMC的核心思想是,使用互相独立的视角(通常指从不同的角度、尺度、或者剪裁方式上观察同一物体)来捕捉不同的特征信息,并学习如何将这些视角下的不同的低维特征嵌入到同一空间中。通过学习如何将这些特征的嵌入对样本之间的差异进行建模,在同一视角之外的样本之间也能够建立起有意义的对比关系。 具体的训练过程中,CMC通过分别对每个视角进行编码操作,为每个视角得到一个低维的特征表示,然后以最大化互相对比度的方式优化这些特征表达,让同一样本在不同视角下产生的嵌入向量更加接近,不同样本之间的嵌入向量相对较远,以此达到更好的分类效果。 总体而言,CMC具有可拓展性、半监督、不受领域限制等多样的特点,可以为许多计算机视觉任务提供有用的特征表示。此外,由于CMC利用无监督的自我学习机制,因此可以在无监督的情况下使用大规模数据,可以应用于数据集较少的任务中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值