What Makes a Video a Video :Analyzing Temporal Information in Video Understanding Models and Dataset

最新推荐文章于 2022-10-04 11:57:13 发布

NoMorningstar

最新推荐文章于 2022-10-04 11:57:13 发布

阅读量2.1k

点赞数 1

本文链接：https://blog.csdn.net/qq_20657717/article/details/82563260

版权

有李飞飞跟视频分析这两个关键词这篇文章就值得一读，本人水平有限，若翻译跟理解有误欢迎批评指正。

论文链接：点击查看PDF

是什么成就了视频：分析时域信息在视频理解模型和数据集的作用

摘要

捕捉时域信息的能力对于视频理解模型的发展至关重要。尽管在视频中对动作建模进行了大量尝试，但仍缺少对时域信息在视频理解上的影响的明确分析。在此项工作中，我们的目标是弥合这一差距，并提出以下问题：视频中的运动信息（motion）对于识别动作有多重要？为此，我们提出了两个新颖的框架：（i）基于cycleGAN的类别无关（class-agnostic）时域生成器（temporal generator）（ii）运动不变帧选择器，在没有引入其他标注的失帧分析中减少/消除运动信息。这将运动信息分析与视频的其他方面隔离开来。与我们分析中的基线相比，提出的框架提供了更紧密的运动效果（使得在UCF101上，单帧clip相比16帧的clip的性能下降从25%减小到6%，在Kinetics上性能下降从15%减小到5%）。我们的分析提供了关于现有模型（如C3D）的独到见解，以及如何通过一组较稀疏的框架实现对比效果。

1.引言

随着更好的模型[31,36,43]和更大的数据集[14,19,20]的引入，视频理解近年来取得了显着进展。大多数方法的一个共同主题是强调时间模型，这被视为视频和图像之间的主要区别。这包括关于低级运动[31,36,41,42]，长/短期依赖[5,39,47,50]，时间结构[3,8,9,10]以及将动作建模为一系列事件/状态[33,34,45]。
更具体地说，广泛的深度学习架构[4,36,39]试图通过时域卷积来捕捉低水平运动，从而获得最先进的结果[4,37]。像iDT [41]这样的手工制作的功能也提倡使用动作进行动作识别。然而，低水平运动建模的实际影响仍然不明确。如图1所示，某人可以说

（a）原始视频

（b）通过匹配（a）图1的深层特征生成的视频。

图1.（a）原始视频。（b）通过网络可视化[6]从（a）中视频的C3D池化5层特征生成的视频。在池化5阶段前网络就失去了视觉上可感知的运动。
帧中的场景和对象几乎足以推断出动作。通过匹配C3D [36]模型的深层特征在视频中重新创建运动，部分验证了这一猜想。我们观察到视频中的可见运动在网络中的池化5层丢失，同时仍保留完整的空间信息。在这些观察的启发下，我们对视频动作识别中的运动效果进行了深入的定量和定性分析。特别是，我们尝试分析现有的视频培训模型是否利用运动信息，同时分类新视频。我们可以通过在测试期间对视频进行彻底的二次采样来实现这一目标，只保留一帧。但是，在单个帧上测试使用全长视频训练的模型并非易事。多次复制帧的简单方法导致UCF-101的性能下降近25％。由此很难不光是缺乏动作信息得出结论。我们观察到除了移除运动之外，子采样还导致两个不期望的效果：（i）显著改变时间分布，以及（ii）可能移除视频中对于识别动作很重要的关键帧。
我们提出以下两个框架来消除视频中的运动以进行分析，同时减轻这些不期望的效果：（i）类别无关时域生成器，其为次采样帧添加时间方差以弥合训练和测试之间的差距（ii）运动不变帧选择器，允许模型通过独立查看每个帧从视频中选择好的帧。
我们对两个视频数据集中广泛使用的3D轮廓模型[36,39]的分析进行了例证：UCF101 [32]和Kinetics [20]。 UCF101一直是比较和分析视频模型的标准基准[43]，而Kinetics是最新的大规模用于分类的数据集。我们选择3D卷积因为它已经成为视频理解的标准方法，但是所提出的框架（生成器和帧选择器）是通用的，可以用于分析任何视频模型。
我们的分析表明，如果不使用视频中的任何动作，并且不更改我们正在分析的视频模型，我们就可以在UCF101上将差距从25％缩小到6％，在动力学上缩小15％到5％。与其他分析基线相比，这为视频中的运动效果提供了更严格的上限。我们的每级精度分解表明，超过40％的UCF101和35％的Kinetics不需要视频中的运动来匹配平均类精度。此外，仅保留剪辑中1/4的帧，我们能够获得与使用所有帧所获得的结果相当的结果。

2.相关工作

动作识别的时间建模：强调视频中时域信息的建模是视频和图像模型之间的关键区别。这包括低级动作[7,36,31,41,42,16,17]，长/短期依赖[39,50,5,47,26]，时间结构[9,8,3,23] ，将行动建模为事件/状态序列[34,45,33,29]和时间汇集策略[44,45,48,10]。这些方法通常基于整体性能进行评估，因此很难确定模型是否真正捕获运动信息，以及运动是否真的对于识别现有视频数据集中的动作至关重要[1,13,14,19， 20,22,32]
模型分析：与我们的工作最相关的是Sigurdsson等人对行动类别的最新分析 [30]。其中通过基于对象复杂度，动词复杂度和运动的不同级别分解动作类别来分析识别性能。他们试图回答有关选择良好行动类别以学习有效模型的问题。相比之下，我们的工作提供了一种数据驱动的方法来明确地测量运动在C3D等时间动作识别模型中的影响。过去已经使用类似的想法来分析物体检测的模型[15,28]。另一个相关的工作是来自深度神经网络[2,46,51,53]的表示的可视化，以及数据集中的偏差[21,35]。生成器：为了正确分析运动，我们使用时域生成器来抵消训练和测试视频时间分布的差异。该生成器
与视频预测工作有关[24,38,40]，我们的架构受到最近图像转换方法的启发[18,54]。值得注意的是，Kinetics已被用作分析对抗环境中深部网络缺点的一种方法[11,25]。帧选择：在识别被证明是提高视频模型性能的有效方法之前，帧选择缩小了行动的时间范围[27,49,55]。我们利用这个想法来分析选择正确帧的效果，同时对视频进行二次采样以减少运动。

3.方法

我们的目标是分析运动对在视频上训练的现有模型（例如在UCF101上训练的C3D）的性能的影响。关键的挑战是使用简单的策略（例如复制）将现有模型中的运动分解出来可能会导致错误或有偏见的结论。我们提出两个框架来解决这个问题，并允许我们准确地分析运动对识别性能的贡献，而无需修改我们正在分析的模型。我们稍后在第4节中说明，两者的结合为运动信息的贡献提供了更严格的上限。
3.1 类别无关时域生成器
如前面第1节和图1中所讨论的，对于许多示例，单个或稀疏数量的帧可能具有足够的信息来识别该动作。然而，由于模型是在完整视频（16帧）上训练的，因此空间和时间维度被纠缠在模型中。在这种情况下，在分析/测试时初步地对帧进行子采样会显着改变时间分布并影响识别性能。
我们观察到空间和时间维度是高度相关的：应该可以从子采样图像中产生假象，以补偿时间分布的差异。我们提出了一个类不可知的时间生成器（图2（a）），它将视频帧的子集作为输入并合成完整的视频，作为模型的输入。这使得列车和测试分布相似，这反过来又允许我们通过帧采样来分析运动的影响。我们不会提供有关我们要分类的特定视频的任何其他动态信息。
挑战变成了，合成视频的属性应该是什么？我们是否必须准确地合并图1（a）中第一帧的最后三帧以进行分析？我们的答案是：否。
这里写图片描述

（a）类别无关时域生成器（b）运动不变帧选择器

如[6]中的网络可视化工作所示，卷积神经网络在层次结构中的较高层具有很强的不变性。为了更好地分析，只要我们能够生成在模型中恢复所需特征激活之前的运动信息，就可提供更严格的上限。
图2.我们提出了两个用于分析视频模型的框架。目标是消除其他信息的影响，以便对运动信息的影响做出有意义的结论。第一种是类别无关时域生成器，它抵消了视频和子采样帧之间时间分布的差异。第二种是运动不变帧选择器，它不引入额外的运动信息，但允许视频模型查看视频中的所有帧。
在模型中，它可用于在我们的分析中提供更严格的上限。图1（b）显示了匹配在UCF101上训练的C3D的pool5特征的网络可视化结果。我们观察到视频中的可见运动在网络中的pool5层丢失。
基于这种观察，我们使用感知损失[18]来匹配视频模型的不同层的特征。换句话说，我们的生成器旨在从给定的子采样帧生成运动，以重构每层中的特征，以补偿时间分布的差异。我们的时间生成器的轮廓如图2（a）所示。我们扩展了CycleGAN [54]的生成器，从给定数量的帧（在我们的实验中为1,2,4或8帧）生成视频片段（C3D为16帧）。我们使用合成视频的特征映射与原始视频之间的归一化L2距离作为损失函数。我们将证明感知损失在生成器中提供更严格的上限对我们的分析中起着重要作用。注意到我们正在进行无人监督的训练：根本不使用类标签或监督损失来训练生成器。这可能使我们能够充分利用大量未标记的视频数据。此外，我们的生成器提供了一种定性分析视频模型的方法。通过可视化我们从每个网络中学习的动作，我们能够理解它在视频中看到的动作。最后，请注意该框架是通用的，并不与我们试图分析的视频模型紧密耦合。我们只需要指定层来定义感知损失。
3.2 运动不变帧选择器
在上一节中，我们提出了一种在给定帧子集的情况下分析运动的方法。我们现在尝试回答这个问题：框架的质量在多大程度上会影响性能？把它带到一个极端，是否有一个关键帧足以获得良好的准确性？对视频帧进行初步的子采样会删除对理解视频很重要的视觉内容。潜在地，可能存在关键帧，这对于识别视频的动作而不需要任何额外的动作信息是至关重要的。
由于我们专注于分析时域信息，因此帧选择过程不应使用仅在我们要分类的视频中可用的额外运动信息。换句话说，确保帧选择器是运动不变的很重要。形式上，给定的一组候选的帧从视频采样 ${X _i }$ ，选择过程不应该引入任何超出每个候选X的顺序/运动信息。我们现在简要描述两个基于启发式的简单框架选择器：Max Response和Oracle。
最大响应（Max Response）：给定一组候选

最低0.47元/天解锁文章

NoMorningstar

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
What Makes a Video a Video :Analyzing Temporal Information in Video Understanding Models and Dataset

最近随着浏览的网页剧增，相关的学习内容越来越多，感觉有点顾此失彼，暂定每星期交叉学一下[前端][57]跟[python][56]，阅读一篇论文并写点笔记，后期实验感觉做得有气无力（环境条件限制），还是回归基础知识好了。回到正题，光李飞飞跟视频分析这两个关键词这篇文章就值得一读，论文链接：[点击查看PDF][58]本人水平有限，若翻译跟理解有误欢迎批评指正。是什么成就了视频：分析...
复制链接

扫一扫