MTV
摘要
MTV由独自分开的encoder组成,并通过横向连接
做了许多消融实验,结果比单个view的准确度高,计算成本低
在五个通用数据集上效果好,在大规模预训练基础上效果更好
引言
图像领域,采用金字塔形多尺度处理表现好,例如slowfast。但由于pooling和下采样部分时空信息丢失;
MTV不依靠金字塔结构获取多尺度信息,构建transformer视频理解模型:
-
慢流用更小的encoder
-
采用不同‘’view‘,从不同维度提取token,再分别进入transformer横向链接
-
views越多,准确度上升
结论
基于处理多种"view"提出了处理多尺度时间信息的transformer模型
有较为良好的性能,在五个最常用的数据集上取得最优结果
相关工作
- 受ViT,ViViT,Timesformer启发
- 多尺度计算在计算机视觉领域非常有效
同时处理多个view比增加transfomer深度提高准确度更大
通过变化线性投射时空管道的size获取不同的view