【MTV】Multiview Transformers for Video Recognition 笔记

MTV

摘要

MTV由独自分开的encoder组成,并通过横向连接

做了许多消融实验,结果比单个view的准确度高,计算成本低

在五个通用数据集上效果好,在大规模预训练基础上效果更好

引言

图像领域,采用金字塔形多尺度处理表现好,例如slowfast。但由于pooling和下采样部分时空信息丢失;

MTV不依靠金字塔结构获取多尺度信息,构建transformer视频理解模型:

  • 慢流用更小的encoder

  • 采用不同‘’view‘,从不同维度提取token,再分别进入transformer横向链接

  • views越多,准确度上升

    在这里插入图片描述

结论

基于处理多种"view"提出了处理多尺度时间信息的transformer模型

有较为良好的性能,在五个最常用的数据集上取得最优结果

相关工作

  • 受ViT,ViViT,Timesformer启发
  • 多尺度计算在计算机视觉领域非常有效

同时处理多个view比增加transfomer深度提高准确度更大

通过变化线性投射时空管道的size获取不同的view

模型

<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值