视频理解
文章平均质量分 96
念啊啊啊啊丶
路漫漫其修远兮,吾将上下而求索。
展开
-
【视频理解】2022-CVPR-Video Swin Transformer
视觉领域正在见证从 CNN 到 Transformers 的建模转变,纯 Transformer 架构在主要视频识别基准测试中达到了最高准确度。这些视频模型都建立在 Transformer 层之上,Transformer 层在空间和时间维度上全局连接块。在本文中,我们提倡视频 Transformer 中的局部归纳偏差,与以前的方法相比,即使使用时空分解,也可以在全局范围内计算自注意力,从而实现更好的速度-精度权衡。所提出的视频架构的局部性是通过调整为图像域设计的 Swin Transformer 实现的。原创 2023-03-28 17:13:55 · 4469 阅读 · 1 评论 -
【视频理解】2018-CVPR-非局部神经网络
卷积运算和循环运算都是一次处理一个局部邻域的构建块。在本文中,我们将非局部操作作为用于捕获远程依赖性的通用构建块。受计算机视觉中经典的`非局部均值`方法 [4] 的启发,我们的非局部操作将某个位置的响应计算为所有位置的特征的加权和。这个构建块可以插入到许多计算机视觉架构中。在视频分类任务中,即使没有任何花哨的功能,我们的非局部模型也可以在 Kinetics 和 Charades 数据集上竞争或超越当前的竞争优胜者。在静态图像识别中,我们的非局部模型改进了 COCO 任务套件的对象检测 / 分割和姿态估计。原创 2023-03-25 16:05:14 · 693 阅读 · 0 评论 -
【视频理解】2021-ICML-时空注意力是视频理解所需要的全部吗?
我们提出了一种无卷积的视频分类方法,该方法完全建立在空间和时间上的自注意力之上。我们的方法名为 “TimeSformer”,通过直接从一系列帧级块(patch)中启用时空特征学习,使标准 Transformer 架构适应视频。我们的实验研究比较了不同的自注意力方案,并表明 “分散注意力”,即在每个块内分别应用时间注意力和空间注意力,在所考虑的设计选择中导致最佳视频分类精度。尽管采用了全新的设计,TimeSformer 在多个动作识别基准测试中取得了最先进的结果。原创 2023-03-22 17:49:20 · 667 阅读 · 0 评论 -
【视频理解】论文串讲
视频动作识别是视频理解的代表性课题之一。在过去的十年中,由于深度学习的出现,我们见证了视频动作识别的巨大进步。但我们也遇到了新的挑战,包括在视频中建模长时间信息,高计算成本,以及由于数据集和评估协议差异而导致的无法比较的结果。在本文中,我们按时间顺序介绍视频动作识别模型:从早期尝试适应深度学习开始,然后是双流网络,然后是采用3D卷积核,最后是最近的计算效率模型。此外,我们还在几个有代表性的数据集上对流行的方法进行了基准测试。最后,我们讨论了开放的问题,并阐明了视频动作识别的机会,以促进新的研究思路。原创 2023-03-10 22:03:39 · 1660 阅读 · 1 评论