【MTV】Multiview Transformers for Video Recognition 笔记

最新推荐文章于 2025-02-01 14:22:23 发布

zhy—bupt

最新推荐文章于 2025-02-01 14:22:23 发布

阅读量2.4k

点赞数 1

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/salari/article/details/123253665

版权

MTV

摘要

MTV由独自分开的encoder组成，并通过横向连接

做了许多消融实验，结果比单个view的准确度高，计算成本低

在五个通用数据集上效果好，在大规模预训练基础上效果更好

引言

图像领域，采用金字塔形多尺度处理表现好，例如slowfast。但由于pooling和下采样部分时空信息丢失；

MTV不依靠金字塔结构获取多尺度信息，构建transformer视频理解模型：

慢流用更小的encoder
采用不同‘’view‘，从不同维度提取token，再分别进入transformer横向链接
views越多，准确度上升

结论

基于处理多种"view"提出了处理多尺度时间信息的transformer模型

有较为良好的性能，在五个最常用的数据集上取得最优结果

模型

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhy—bupt

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

SlowFast泛读【SlowFast Networks for Video Recognition】

weixin_47341656的博客

04-21

809

SlowFast泛读【SlowFast Networks for Video Recognition】

NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer，完全端到端学习，超强可扩展性...

我爱计算机视觉

11-23

1336

关注公众号，发现CV技术之美✎编者言从多视角估计多人三维人体姿态是一个比较challenge的研究方向，目前的方法都采用了多阶段的模式，整个框架比较复杂。最近NUS联合Sea A...

1 条评论您还未登录，请先登录后发表或查看评论

UniFormer：用统一多视角融合Transformer构建时空BEV表征

CV_Autobot的博客

07-27

1335

点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取arXiv论文“UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View“，2022年7月上传，浙江大学、大疆公司和上海AI实验室的工作。BEV表示是一种基于...

多视角多人3D姿态估计：Multi-view Pose Transformer (MvP) 项目推荐

gitblog_00033的博客

03-22

537

多视角多人3D姿态估计：Multi-view Pose Transformer (MvP) 项目推荐 mvp 项目地址: https://gitcode.com/gh_mirrors/mvp1/mvp 项目...

全transformer结构视频视觉分类MviT，Multiview Transformers for Video Recognition

邹九的个人博客

05-04

1007

VIVIT网络使用的管道提取token，也就是3D卷积提取token，但是3D卷积大小是相同的，所以提取到的token大小也是相同的。MviT网络使用不同时间t大小的卷积核，提取了不同时间尺度的token，也就是3D卷积核大小不相同，大的3D卷积核提取了全局背景特征，小的3D卷积核提取了细腻度的特征。MviT网络就使用了大的卷积核，小的卷积核分别提取特征，最后融合起来。CNN里面的金字塔结构和这个类似。也就是提取token的时候MviT使用了大小不同的管道。最后经过encoder最后做融合。

又一任务被Transformer攻陷！NVIDIA开源HORST，用Transformer解决早期动作识别和动作预期任务...

我爱计算机视觉

01-24

3080

关注公众号，发现CV技术之美本文分享论文『Higher Order Recurrent Space-Time Transformer for Video Action Prediction...

用 Vision Transformer 做物体探测任务 object detection

drin201312的博客

09-17

3002

Transformer 最开始是应用于 NLP 的翻译任务，而后续的实践则证明了 Vision Transformer 也能够用于物体探测等 CV 任务。下面是用 Vision Transformer 实现了一个不使用卷积、无预设框 anchor free 的物体探测器，用该探测器在 COCO 数据集上做探测任务的效果。训练环境配置： Keras/TensorFlow 2.9，Python 3.10，WIN 10，Anaconda，Pycharm 以及 Jupyter Lab.

Recurrent+Transformer | 视频恢复领域的‘德艺双馨’

WangsyHebut的博客

06-12

1073

（本文首发于"我爱计算机视觉"，如需转载等事宜请联系我爱计算机视觉）作者单位：苏黎世联邦理工、Meta、维尔茨堡大学论文链接：https://arxiv.org/pdf/2206.02146.pdf 代码链接：https://github.com/JingyunLiang/RVRT 笔者言： Jingyun大佬继SwinIR，VRT之后的又一篇力作，在Transformer结构中套用了循环架构（笔者最近也在research这个点，奈何大佬太猛了）并从帧级对齐扩展到片段对齐。RVRT在VID4上超过了VR

Awesome Video Transformer

ZhengrongYue的博客

04-05

1223

Awesome Video Transformer

保姆级教学 —— 手把手教你复现Vision Transformer

大脸猫的博客

03-24

8071

前言 Transformer的初衷是借助多头注意力机制解决seq2seq在机器翻译中对长距离上下文翻译不准确的问题，因为seq2seq中的encoder对任意句子只能给出一个固定的size表征，而这个表征在遇到长句时会显得包含的信息量不够。 ViT的标题中的“AN IMAGE IS WORTH 16X16 WORDS”可以看出，ViT将图片分割为固定数量的patches，每个patch都视作一个token，同时引入了多头自注意力机制去提取包含了关系信息的特征信息。阅读本文须知为高效阅读本文，建议

Video-Action-Transformer-Network-Pytorch-:视频行动变压器网络的实现

05-01

视频动作变压器网络火炬视频行动变压器网络的Pytorch和Tensorflow实现Rohit Girdhar，Joao Carreira，Carl Doersch，Andrew Zisserman 重新定义视频变压器（用途为RESNET基地）transformer_v1.py更像是真正的变压器，transformer.py更真实到什么纸通告用法： from transformer_v1 import Semi_Transformer model = Semi_Transformer(num_classes=num_classes , num_frames = max_seq_len) outputs, features = model(imgs) # outputs is the classification layer output (do cross entropy loss)

开启视频生成新纪元：基于Transformer生成高质量电影级别视频的通用世界模型，领域第一个视频生成任务的通用模型，从20亿数据中学习物理世界，基于Transformer通用世界模型成功挑战视频生成

代码讲故事

01-30

1499

开启视频生成新纪元：基于Transformer生成高质量电影级别视频的通用世界模型，领域第一个视频生成任务的通用模型，从20亿数据中学习物理世界，基于Transformer通用世界模型成功挑战视频生成。 WorldDreamer是一个基于Transformer的通用世界模型，能够完成自然场景和自动驾驶场景多种视频生成任务，如文生视频、图生视频、视频编辑、动作序列生视频等。该模型从20亿数据中学习物理世界，通过预测Token的方式建立通用场景世界模型，将视频生成转换为序列预测任务，从而对物理世界的变化学习。

《Cross-view Transformers for real-time Map-view Semantic Segmentation》论文笔记

m_buddy的博客

07-01

3480

参考代码：cross_view_transformers这篇文章提出了基于transformer的bev特征提取网络（对于2D的bev），对于bev下的queries会通过加上map-view embedding进行refine得到最终queries。同样在多视图特征（由CNN网络得到）上也会添加camera-view的embedding进行refine得到key。同时为了感知道路的3D位置几何关系还对相机位置进行embedding（代码中为减去操作），并与上述的两种embedding进行关联。最后原多视图

Cross-View Transformers for Real-Time Map-View Semantic Segmentation 论文阅读

KrMzyc的博客

11-19

794

提出了 Cross-View Transformers ，一种基于注意力的高效模型，用于来自多个摄像机的地图视图语义分割使用相机感知的跨视图注意机制隐式学习从单个相机视图到规范地图视图表示的映射该架构由每个视图的卷积图像编码器和跨视图变换层组成，以推断地图视图语义分割。

视频理解论文精读系列目录【更新中】

weixin_47341656的博客

04-12

2231

视频理解论文精读系列目录 0、Introduction 1、ConvNet+LSTM 2、3D ConvNets 3、Two-Stream Convolutional Networks 3.1 泛读 3.2 精读 3.3 总结 3.4 验证 4、Two-Stream Inflated 3D ConvNets 5、Temporal Segment Networks 6、SlowFast Networks 7、Temporal Shift Mod...

每日学术速递5.5

与君共勉，一起学习

05-06

1245

标题：ResiDual：具有双剩余连接的Transformer作者：Shufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian, Hany Hassan Awadalla, Arul Menezes, Tao Qin, Rui Yan文章链接：https://arxiv.org/abs/2304.14802项目代码：https://github.com/microsoft/ResiDual摘要：由于其最先进的性能，Transfo

【论文精读】Attention Bottlenecks for Multimodal Fusion 视频分类任务

"You are worthy! You can do it!"

03-05

2900

人类通过多模态输入来处理信息感知世界。机器感知模型却通常是单模态的。从每种模态中合并得到最终表示或预测（“late-fusion”）仍然是多模态视频分类的主要范式。相反，本文引入了一种新的基于Transformer的架构，该架构使用“fusion bottlenecks 融合瓶颈”进行多层模态融合。与传统的成对自我注意力相比，该模型迫使不同模态之间的信息通过少量的bottleneck latents 瓶颈延迟，要求模型整理和浓缩每个模态中的相关信息，并共享必要的信息。

[CVPR 2022]Cross-view Transformers for real-time Map-view Semantic Segmentation

Sherlily的博客

02-01

882

计算机-人工智能-实景车辆检测

Vision Transformer图像分类(MindSpore实现)

ZOMI酱

05-13

4000

Vision Transformer进行图像分类 Vision Transformer（ViT）简介近些年，随着基于自注意（Self-Attention）结构的模型的发展，特别是Transformer模型的提出，极大的促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性，它已经能够训练具有超过100B参数的空前规模的模型。 ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下，依然可以在图像分类任务上达到很好的效果。模型结构 ViT模型的主体结构是基于

Graph learning for multiview clustering.

最新发布

03-04

### 图学习算法在多视图聚类中的应用 #### 多视图数据的特点与挑战多视图数据指的是同一对象通过不同特征集或测量方式获得的数据表示。这种数据结构带来了丰富的信息，但也增加了处理复杂度。传统单视图方法难以有效利用这些额外的信息源。 #### 图融合技术的重要性为了充分利用来自多个视角的信息，在多视图聚类中引入了图融合的概念。该过程旨在构建一个综合性的相似性矩阵来捕捉跨视图之间的关系模式[^1]。具体来说： - **可扩展性和无参数化**：所设计的方法应具备良好的伸缩性能以及尽可能少的手动调参需求。 - **连通性约束**：确保最终形成的图能够保持样本间的内在联系特性不变。 - **初始化无关性**：无论初始状态如何变化，都能稳定收敛到最优解附近。 #### 基于图的学习框架概述一种典型的基于图的多视图聚类流程如下所示： 1. 构建各单独视图对应的邻接矩阵； 2. 应用特定策略（如加权平均、最大最小规则等）对上述矩阵实施融合操作得到全局表征； 3. 利用谱分析或其他手段执行降维映射； 4. 实施标准K-means或者其他合适的划分型聚类器完成最后的任务目标。 ```python import numpy as np from sklearn.cluster import KMeans from scipy.sparse.csgraph import laplacian def construct_similarity_matrix(X, k=5): """Construct a similarity matrix from data X using k-nearest neighbors.""" n_samples = X.shape[0] dists = pairwise_distances(X) indices = np.argsort(dists, axis=-1)[:, :k+1][:, 1:] sim_mat = np.zeros((n_samples, n_samples)) for i in range(n_samples): sim_mat[i][indices[i]] = 1 / (dists[i][indices[i]] + 1e-8) return symmetrize(sim_mat) def fuse_views(view_mats, method='average'): """Fuse multiple view-specific matrices into one by specified methods.""" if method == 'average': fused_mat = sum(view_mats)/len(view_mats) elif method == 'maxmin': max_vals = np.max(np.stack([np.diag(mat) for mat in view_mats]), axis=0) min_vals = np.min(np.stack([mat - np.diagflat(np.diag(mat)) for mat in view_mats]), axis=0) fused_mat = np.maximum(min_vals, max_vals.reshape(-1, 1)) return normalize(fused_mat) # Assume we have three views of the same dataset represented as feature matrices V1,V2,V3. V1_similarities = construct_similarity_matrix(V1) V2_similarities = construct_similarity_matrix(V2) V3_similarities = construct_similarity_matrix(V3) fused_graph = fuse_views([V1_similarities, V2_similarities, V3_similarities]) L = laplacian(fused_graph) _, eig_vecs = eigh(L) embedded_data = eig_vecs[:, :num_clusters] model = KMeans(n_clusters=num_clusters).fit(embedded_data) labels = model.labels_ ``` 此代码片段展示了如何从三个不同的视图出发建立各自的相似性矩阵，并采用简单的算术均值法将其合成为一个统一的整体用于后续的操作之中。值得注意的是实际应用场景下可能还需要考虑更多细节因素比如权重分配机制的选择等问题。

【MTV】Multiview Transformers for Video Recognition 笔记

MTV

摘要

引言

结论

相关工作

模型