paper总结（）Learn2Augment: Learning to Composite Videos for Data Augmentation in Action Recognition

最新推荐文章于 2024-09-24 23:42:46 发布

Deep_Dreamer

最新推荐文章于 2024-09-24 23:42:46 发布

阅读量902

点赞数 16

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qq_50213874/article/details/130296341

版权

动机：

在视频动作识别中，收集数据需要大量的体力劳动。

随着数据集变得越来越大，这种数据增强策略在计算上变得非常昂贵。可能的视频对和变换的搜索空间是巨大的，难以探索。解决方案通常是随机采样空间，或者手动设计增强启发式。在视频数据的背景下，任何探索过程都是特别繁重的，因为增强过程需要在每一帧中重复，这可能比图像的成本要高几个数量级。

在本文中，作者解决了数据增强的采样问题，并提出了学习选择视频对的方法。表明这将增强数据点的搜索空间减少了几个数量级，并显着提高了分类器的最终精度。利用两个观察结果。首先，并不是所有的数据点都对分类有用。这个想法已经在帧或剪辑选择的背景下被利用。其次，我们可以学习预测哪些数据点是有用的，而不需要实际生成它们。这是必要的，因为转换的空间是巨大的，如果我们需要创建每个候选增强视频，这个过程将是非常昂贵的。

具体来说，作者提出了一种数据增强方法，称之为Learn2Augment。提出的方法包含一个“选择器”网络，它可以预测两个视频组合的有用程度，而不必实际合成它们。选择器使用分类的准确性作为线索进行训练。由于这个度量依赖于分类器，它对于选择器的参数是不可微分的。因此，使用强化学习来优化网络。一旦选择器网络被训练，我们用它来选择好的视频对，组合它们，并训练一个分类网络。

总之，提出的Learn2Augment包含三个核心组件:学习选择好视频进行增强的选择器，改进优化的语义匹配方法，以及合成视频对进行增强的视频合成。

方法

selector

给定两个输入视频v1和v2，选择器的目标是预测权重ω，对潜在合成视频的质量进行评级。注意，选择器的输入是两个假定的视频，而不是合成的视频。这意味着在测试时，可以预测合成视频的有用程度，而不必实际创建它

选择器的架构包括一个标准的视频分类网络来提取视频特征，它是ResNet3D-18，然后是一个简单的多层感知器(MLP)，有3个隐藏层，大小分别为2048、1024和512。两个视频一次输入到选择器中，它们的特征和标签被连接并输入到MLP中。

由于没有关于视频样本对学习有多“好”的基本真理，我们使用分类器验证损失的变化来训练选择器。也就是说，我们认为一个“好的”训练样本是一个，如果用于训练，可以改善分类网络的验证损失。换句话说，如果我们用一个优化步骤训练分类器，在更新权重之后，验证损失将会下降。第4.1节详细描述了培训过程。

在测试时，我们使用选择器对视频进行采样，选择那些得分高的对，并输入到视频合成模块，我们将在第3.3节中描述。最后将得到的视频用于增强分类网络的训练集。

Semantic Matching (SM)

完整数据集中的配对数量可能非常大，因为它随着视频数量的平方而增长。例如，对于Kinetics，我们会遇到3600亿对。使用这些来训练分类器显然是不可行的，因此我们使用选择器。但是用所有这些样本来训练选择器本身也是不可行的。统一采样是一个合理的解决方案，但许多视频对可能对学习没有帮助。我们利用观察结果，即所有行动和背景组合的可能性都不一样。行动和背景之间的这种自然关联有助于减少不可能的职业组合。

为此，我们假设语义相似的类更有可能包含现实世界中可信的前景和背景，因此对于我们的数据增强目的更现实。因此，我们使用sen2vec使用类名提取语言嵌入，并使用这些嵌入将每个类与其最近的邻居进行匹配。我们分别从类c1和它最近的邻居c2中采样视频v1和v2。这个简单的决定减少了对的数量，使其随数据集的大小线性增长，并且大大提高了相对的准确性。

Video Compositing (VC)

增强过程的目标是合成两个录像，制作真实、可信和多样化的新录像，以改进分类。图3显示了合成单个框架的整个管道。

给定两个将用于前景V f和背景V b的视频，我们使用标准的对象分割网络(MaskRCNN)在两个视频的每一帧中分割出人和物体。动作数据集中的对象类别不完全包含在用于训练MaskRCNN的图像数据集COCO中。然而，我们观察到，高置信度的物体检测往往与实际物体相对应，即使类别不正确(拳击袋经常被归类为消防栓)，因此对我们的目的是有用的。我们也可以只选择视频中的人类，因为动作类别倾向于关注人类。然而，我们发现特定对象的存在与动作类别(“弹吉他”或“拉小提琴”类中的乐器)高度相关。因此，从背景中去除原始物体并添加来自前景的物体对于识别至关重要。

我们从背景视频中去除被分割的对象，并使用图像填充来填充这些空洞，得到一个干净的背景视频V ' b。最后，我们通过简单的合成将每一帧的前景对象和背景结合起来，如下所示:

Optimization of Learn2Augment

一旦选择器网络被训练，在第二阶段，我们执行数据增强来训练分类器。即对视频对进行采样，通过训练好的选择器，选择得分较高的视频对，通过视频合成(Video Compositing)将这些视频对生成新的视频，并添加到训练集中。现在我们详细介绍这两个训练阶段。

Training the Selector

正如前面提到的，没有基本的事实可以告诉我们增强的数据样本有多好。相反，我们使用分类网络的验证损失来训练选择器网络。这个函数对于选择器的参数是不可微的。处理这个问题的一个常见解决方案是使用RL。具体来说，时刻t的状态st是使用SM采样的视频对的批次。动作at是选择用于合成的这些视频对的子集，并表示为值在0到1之间的向量。环境是分类网络和验证过程。这个环境用于计算选择特定动作的奖励R(θ)，其中θ是选择器的参数。

我们在单个步骤中计算奖励，作为当前批次的损失与前S步(其中S = 5)中损失的移动平均值之间的差，表示为δ，如Eq. 2所示:

式中Lcls为分类交叉熵损失，fφ为参数φ的分类器网络，V i和yi分别为输入视频及其标签，Dval为验证集，|Dval|为Dval中的样本个数。我们想要最大化的目标函数是奖励的期望值:

为了找到最优策略，我们通常会对目标函数对参数θ求导。然而，奖励函数依赖于用分类器网络计算的验证损失，它不涉及θ。相反，使用强化，我们将目标函数近似为:

式中，τ i为策略πθ下的第i个状态-作用轨迹，M为样本轨迹数，T为轨迹中执行的动作数。注意，当我们有单步情节时，我们可以做一些简化，M = 1, T = 1，并且只有一个轨迹τ i，和因此Rτ i (φ)就是R(φ)将这些化简后，将Eq. 3代入Eq. 4，可得:

其中DM对应于组合样本对的子集，DB对应于批处理中所有样本对。选择器由α∇θ J(θ)更新，其中α为学习率，δ用最后计算的损失更新，如Eq 6所示

注意，这个训练过程确实涉及到生成DM中成对的合成视频，输入到分类器并计算损失。然而，至关重要的是，在训练过程中，如果我们要合成所有视频对，这只是需要生成的视频数量的一小部分(小一个数量级)。

一旦选择器训练好了，我们就用它来过滤好的配对。此时，给定两个视频和它们的标签，选择器网络预测一个策略π，表示选择这对视频的可能性。分数ω是每一对的π值。我们使用该分数的阈值来选择要增强的视频对。在我们的实验中，我们首先确定我们想要增加的视频数量的预算，然后选择阈值来选择排名靠前的视频对。我们使用这些选择的视频对作为视频合成的输入，将它们添加到训练集中，并使用它们来训练分类器。

Training the Classifier

与之前的工作类似，将多个样本组合在一起进行增强[37,43]，合成/混合样本应该包含混合标签。我们采用Cutmix[37]的策略，其中前景标签yf和背景标签yb使用比例λ组合，为:

得到混合标号。选择λ的一个简单方法是使用前景蒙版相对于整个视频的比例。给定尺寸为T × H × W的前景视频f，并在每帧Mf处进行掩模，则前景比例为γ = P Mf /(T HW)。我们没有选择λ与前景比例γ成正比，而是给前景[43]更大的权重，如Eq. 8，其中α = 4。

我们将合成视频eV和它们的混合标签i y加入到训练集中，并使用随机梯度下降的标准交叉熵损失来训练分类器网络。

分类器的选择与我们的方法无关。在我们的实验中，我们选择了广泛使用的3D ResNet-18架构，这使我们可以直接与其他方法进行比较。

虽然动作识别中的标准数据增强策略是手工制作的，但我们建议学习哪些视频对适合合成。为了做到这一点，我们的方法利用了三个组件。我们训练了一个经过强化学习优化的选择器来选择哪些视频对适合合成。我们通过使用语义相似类的样本来减少搜索空间。我们为混合样本执行干净的分割，并从前景和背景样本中删除演员和对象。因此，我们在半监督和少镜头动作识别设置中获得了最先进的结果，并在完全监督设置中得到了改进。特别是，我们看到在半监督和少射设置下的增益高达8.6%和3.7%。我们还看到，在完全监督的环境下，与从头开始训练的标准增强相比，提高了17.4%。