Omni-sourced Webly-supervised Learning for Video Recognition

最新推荐文章于 2023-06-19 13:05:35 发布

h137437

最新推荐文章于 2023-06-19 13:05:35 发布

阅读量1.4k

点赞数

文章标签：深度学习神经网络 pytorch 计算机视觉

原文链接：https://arxiv.org/abs/2003.13042

版权

Omni-sourced

Abstract
1 Introduction
3 Proposed Method
Datasets
Experiments
Conclusion

备注：机翻，如有侵权，立即删除
code: https://github.com/open-mmlab/mmaction2
source: ECCV2020

Abstract

我们介绍了OmniSource，一种利用Web数据来训练视频识别模型的新框架。 OmniSource克服了数据格式之间的障碍，如图像、短视频和用于网络监督学习的长未修剪视频。首先，将多个格式的数据样本，由特定任务的数据收集策划，并由教师模型自动过滤，转化为统一的形式。然后提出了一种联合训练策略来处理网络监督学习中多个数据源和格式之间的领域差距。在联合培训中采用了一些良好的做法，包括数据平衡、重采样和跨数据集混合。实验表明，通过利用多种来源和格式的数据，OmniSource在训练中具有更高的数据效率。由于只有3.5M图像和800K分钟的视频从互联网上爬出来，没有人工标记（不到2%的先前工作），我们的模型通过OmniSource方法提高了2D和3D-Conv网络基线模型的Top-1精度，分别在Kinetics-400基准上提高了3.0%和3.9。利用OmniSource，我们通过不同的预训练策略建立了视频识别的新记录。我们最好的模型分别在Kinetics-400基准上达到80.4%、80.5%和83.6%的Top-1精度，分别对应于从training-from-scratch、ImageNet预训练和IG-65M预训练。

1 Introduction

随着图像识别[23,40,16,18]中表示学习的巨大成功，近几年来，由于开发了更强的模型[39,48,3,44]以及收集了大量的数据集[3,58,33,32]，视频分类取得了巨大的进展。然而，标记大规模图像数据集[38,61]众所周知是昂贵和耗时的。修剪视频识别更难做到这一点。原因是大多数在线视频都是未经修剪的，即。包含多个概念的许多镜头，使得不可避免地首先浏览整个视频，然后根据特定的查询将其手动切割成信息丰富的视频剪辑。这样的过程比图像注释需要付出更多的努力，因为需要简单的浏览和点击。因此，虽然网络视频的数量在过去3年中呈指数增长，但Kinetics数据集仅从400类的300K视频[20]增长到700类[2]的650K，部分限制了视频体系结构[3]的扩展。

在这里插入图片描述
我们不再把自己局限于经过精心修饰的视频，而是通过探索互联网上以更省力的方式公开提供的丰富的视觉数据来超越。这些视觉数据有多种格式，包括图像、短视频剪辑和长视频。它们捕捉相同的视觉世界，同时表现出不同的优势：例如。图像可能具有更高的质量，并侧重于独特的时刻；短视频可以由用户编辑，因此包含更密集的信息；长视频可以在多个视图中描述事件。我们将不同格式的数据转换成统一的形式，这样一个模型就可以将两个世界中最好的结合起来。

最近的工作[30,13]探索预训练的可能性，从大量未标记的网络图像或视频，只有标签。然而，它们将范围限制在单一格式的数据上。此外，这些方法通常需要数十亿张图像才能获得一个预先训练的2D CNN模型，该模型对噪声有很强的抵抗力，这带来了巨大的成本，限制了它的实用性。此外，为了利用从大规模图像中学到的视频表示，我们必须采取额外的步骤，通过充气[3]或蒸馏[14]将2D Conv网转移到3D对应方，然后在目标数据集上进行微调，这是繁琐的，可能是次优的。

在本工作中，我们提出了一个简单而统一的视频分类框架，同时利用不同格式的多个Web数据来源。为了提高数据效率，我们提出了特定任务的数据收集，即。在搜索引擎上使用类标签作为关键字获得最顶级的结果，使监督信息最丰富。我们的框架包括三个步骤：（1)在标记的数据集上训练一个(或多个)教师网络；(2)对于收集到的每个数据源，我们应用相应的教师网络来获得伪标签，并以低置信度过滤掉不相关的样本；(3）我们应用不同的转换来转换每种类型的Web数据(例如。图像)到目标输入格式(例如。视频剪辑)和培训学生网络。

在与标记数据集和未标记Web数据集联合训练过程中存在两个主要障碍。首先，可能出现领域空白。例如，网络图像可能更多地关注对象，并且包含比视频更少的运动模糊。第二，教师过滤可能导致不同类之间数据分布不平衡。为了减轻域差距，我们建议在标记数据集和未标记Web数据集之间平衡训练批次的大小，并应用跨数据集混合。为了应对数据不平衡，我们尝试了几种重采样策略。所有这些技术都有助于我们方法的成功。

与以前的方法相比，我们的方法擅长以下几个方面：（1）它利用网络数据形式的混合，包括图像、修剪视频和未修剪视频到一个学生网络中，目的是实现全方位的时尚。（2）数据效率高。经验结果表明，只需要2M图像，与Kinetics的总帧数(240K视频，∼70M帧)相比，这一量要小得多，才能产生显著的改善（约1%）。对于裁剪视频，所需数量约为0.5M。与此形成鲜明对比的是，在[13,50]中收集了65M视频，以获得一个具有抗噪声能力的预先训练模型。同样值得注意的是，我们的框架也可以从数十亿图像或视频中大量弱监督的预训练中受益。

综上所述，我们的贡献如下：

（1）我们提出了OmniSource，一个简单有效的网络监督视频分类框架，它可以利用不同格式的Web数据。
（2）我们提出了在与全能数据联合培训期间解决问题的良好做法，包括源目标平衡、重采样和跨数据集混合。
（3）在实验中，我们由Omni Source训练的模型在Kinetics-400上达到了最先进的性能，对于我们测试的所有训练前策略。

3 Proposed Method

3.1 Overview

我们提出了一个统一的框架，omni-sourced网络监督视频识别，制定在SEC. 3.2。该框架以集成的方式利用来自各种来源（搜索引擎、社交媒体、视频共享平台)的各种形式(图像、修剪视频、未修剪视频）的Web数据。由于Web数据可能非常嘈杂，我们使用教师网络过滤低置信度的样本，并为其余的样本获得伪标签(SEC. 3.4)。我们为每种形式的数据设计转换，使它们适用于SEC 3.5中的目标任务。此外，我们还在SEC. 3.6.中探索了几种技术来提高SEC与Web数据联合训练的鲁棒性。

3.2 Framework formulation

给定目标任务（修剪视频识别，例如。）以及相应的目标数据集DT={(xi，yi)}，我们的目标是利用未标记的Web资源U=U1∪···Un，Ui代表以特定的源或格式未标注的数据。First，我们从UI构造伪标记数据集DBI。使用在DT上训练的教师模型M来丢弃低置信度的样本，其余数据用伪标签yb=伪标签(M(X)分配))。 Second，我们设计了适当的转换Ti(X)：DBI→DA，I来处理特定格式的数据(例如。仍然图像或长视频)进入数据格式（在我们的情况下修剪视频）在目标任务。我们表示DA的联合，我是辅助数据集DA。 Finally，模型M0(不一定是原始M)，可以在DT和DA上联合训练。在每次迭代中，我们分别从DT、DA中采样两个小样本的数据BT、BA。损失是BT和BA上的交叉熵损失之和，由Eq1表示。
在这里插入图片描述
为了证明，我们将我们的框架与表1中关于十亿规模网络监督学习的一些最近的工作进行了比较。 Omni Source能够处理来自多个来源的Web数据。它旨在帮助一个特定的任务，将webly-监督视为跨多个数据源的协同训练，而不是预训练，因此数据效率要高得多。还值得注意的是，我们的框架与网络监督的预训练[13]是正交的。
在这里插入图片描述

3.3 Task-specific data collection

我们使用类名作为数据爬取的关键字，没有额外的查询扩展。对于基于标签的系统，如Instagram，我们使用自动排列和词干4来生成标签。我们从各种来源抓取网络数据，包括搜索引擎、社交媒体和视频共享平台。由于Google限制了每个查询的结果数量，所以我们进行多个查询，每个查询都受到特定时间段的限制。与以前的工作相比[30,13]这些工作依赖于带有标签的大型Web数据，我们的特定任务的集合使用与标签高度相关的关键词，使监管更加强大。此外，它将所需的网络数据减少2个数量级(例如。从65M到0.5M的视频在Instagram上)。

数据收集后，我们首先删除无效或损坏的数据。因为网络数据可能包含与验证数据非常相似的样本，数据去重是公平比较的必要条件。我们基于特征相似性执行基于内容的数据去重复。首先，我们使用Image Netpretrained ResNet50提取帧级特征。然后，计算Web数据与目标数据集之间特征的余弦相似度，并在白化后进行两两比较。以同一帧的不同作物之间的平均相似性作为阈值。上面的相似性表明可疑的重复。对于Kinetics-400，我们过滤了4000张网络图像(3.5M，0.1%)和400张网络视频(0.5M，0.1%)。我们手动检查其中的一个子集，发现不到10%是真正的重复。

3.4 Teacher filtering

从网络上抓取的数据不可避免地是嘈杂的。直接使用收集的Web数据进行联合训练会导致显著的性能下降（超过3%）。为了防止无关数据污染训练集，我们首先在目标数据集上训练一个教师网络M，并丢弃那些置信度低的Web数据。对于Web图像，我们观察到当3D教师降到2D时，性能恶化，因此只使用2D教师。对于网络视频，我们发现适用的和3D教师的表现优于2D同行一致。
在这里插入图片描述

3.5 Transforming to the target domain

Web Images. 为了为视频识别训练准备网络图像，我们设计了几种将图像转换为伪视频的方法。第一种na¨ıve方法是复制图像n次，形成n帧剪辑。然而，这种剪辑可能不是最佳的，因为静态剪辑和自然视频之间存在着明显的差距，随着时间的推移，它们在视觉上会发生变化。因此，我们建议通过使用移动摄像机查看静态图像来生成视频剪辑。给定影像I，在标准透视投影模型[10]下，由同相矩阵H∈R3×3诱导的同相变换H可以生成具有另一个透视Ie的图像，即Ie=H(I；H)。从I生成剪辑J={J1，·，JN}，从J1=I开始，我们有
在这里插入图片描述
每个矩阵Hi从多元高斯分布N（µ，Σ）中随机采样，而在原始视频源上使用最大似然估计来估计µ和Σ的参数。一旦我们得到伪视频，我们可以利用网络图像与修剪视频数据集联合训练。

Untrimmed Videos. 未修剪的视频是网络数据的重要组成部分。为了利用Web未修剪的视频进行视频识别，我们分别对二维和三维结构采用不同的转换。

对于二维TSN，从整个视频中稀疏采样的片段被用作输入。我们首先以较低的帧速率(1FPS)从整个视频中提取帧)。使用2D教师来获得每个帧的置信度分数，它还将帧分为正帧和负帧。在实践中，我们发现只使用正帧来构造片段是一个次优的选择。相反，将负帧和正帧结合起来可以形成更难的示例，从而获得更好的识别性能。在我们的实验中，我们使用1个正帧和2个负帧来构造一个3节输入。

对于3D Conv网，使用视频剪辑（密集采样的连续帧）作为输入。我们首先将未修剪的视频切割成10秒的剪辑，然后使用3D教师获得信心分数。只有正夹用于关节训练。
在这里插入图片描述

Joint training

一旦Web数据被过滤并转换为目标数据集中DT中的相同格式，我们就构造了一个辅助数据集DA。然后，利用方程中的交叉熵损失之和，用DT和DA对网络进行训练。 1. 如图所示。跨类的Web数据非常不平衡，特别是在教师过滤之后。 DT与DA之间也存在潜在的域间隙。为了缓解这些问题，我们列举了以下几个良好做法。

Balance between target and auxiliary mini-batches. 由于辅助数据集可能比目标数据集大得多，并且可能发生域间隙，因此目标和辅助小批次之间的数据比对于最终性能至关重要。从经验上讲，|BT|：|BA|=2：1∼1：1工作合理。

Resampling strategy. 网络数据非常不平衡，特别是在教师过滤之后（见图3）。为了缓解这一情况，我们探索了几种抽样策略：（1）从裁剪分布中抽样：样本超过阈值Nc的类被裁剪；（2）从幂律修正的分布中抽样：用N个样本选择类的概率与NP成正比(p∈（0，1)）。我们发现（2）由p=0.2参数化一般是一种更好的实践。

Cross-dataset mixup. Mixup[57]是一种广泛应用于图像识别的策略。它使用对实例及其标签的凸组合进行训练，从而提高了深层神经网络的泛化能力。我们发现这种技术也适用于视频识别。当仅在DT上训练教师网络时，我们使用两个剪辑标签对的线性组合作为训练数据，称为数据内混合。当使用目标数据集和辅助数据集时，这两对是从两个数据集随机选择的样本，称为交叉数据集混合。当网络从零开始训练时，混合效果相当好。对于微调，性能增益不那么明显。

Datasets

Kinetics-400
Youtube-car
UCF101
GoogleImage
Instagram
YoutubeVideo

Experiments

Video architectures

我们主要研究两类视频分类体系结构，即时间段网络[48]和3D ConvNet[3]，以验证我们设计的有效性。除非指定，否则我们使用Image Net精心设计的模型进行初始化。我们使用MMAction[59]进行所有实验。

__2DTSN__不同于[48]中的原始设置，我们选择ResNet-50[16]作为骨干，除非另有规定。 Kinetics/UCF-101和Youtube-car的段数分别为3和4。

3DConvNets，我们使用[9]在我们的大多数实验中提出的慢唯一架构。它需要64个连续帧作为视频剪辑和稀疏样本4/8帧来形成网络输入。探索了不同的初始化策略，包括从头开始的训练和从预先训练的模型进行微调。此外，还探索了更先进的体系结构，如信道可分离网络[44]和更强大的预训练(IG-65M[13]

Verifying the efficacy of OmniSource

Why do we need teacher filtering and are search results good enough?
Does every data source contribute?
Do multiple sources outperform a single source?
Does OmniSource work with different architectures?
Is OmniSource compatible with different pre-training strategies?
Do features learned by OmniSource transfer to other tasks?
Does OmniSource work in different target domains?
Where does the performance gain come from?

在这里插入图片描述

Validating the good practices in OmniSource

我们对我们介绍的技术进行了几个消融实验。目标数据集为K400-tr，辅助数据集为GG-k400，除非指定。

Transforming images to video clips. 将图像转换为视频剪辑。我们比较了将Web图像转换为表8中的剪辑的不同方法。纳¨ıvely复制静止图像带来有限的改善（0.3%）。然后，我们应用随机或恒定速度的翻译形成伪剪辑。然而，性能略有恶化，表明平移不能很好地模拟摄像机的运动。最后，我们利用透视扭曲来幻觉相机运动。估计类无关分布参数略好，表明所有视频可能共享类似的摄像机运动统计数据。

Cross-Dataset mixup 在表9中，我们发现混合是有效的视频识别在内部和交叉数据集的情况下，当模型是从零开始训练。效果尚不清楚进行微调。特别是，混合可以导致0.4%和0.3%的Top-1精度提高的数据内和数据间的情况

Impact of teacher choice. 由于教师和学生网络都可以是2D或3D Conv网，因此有4种可能的教师网络选择组合。对于图像，将3D Conv网缩小到2D会产生戏剧性的性能下降。因此，我们不使用3D ConvNet教师进行Web图像。然而，对于视频，3D Conv网导致更好的过滤结果相比，它的2D对应。为了检验不同教师的效果，我们将学生模型修正为ResNet-50，并改变教师模型的选择(ResNet-50、高效Net-b4和ResNet-152和高效Net-b4的集合)。对照基线（70.6%)观察到持续的改善%）。当使用更好的教师网络时，学生的准确性就会增加。它也适用于网络视频上的3D Conv网

Effectiveness when labels are limited. 为了验证有限标记数据的有效性，我们构造了K400-tr的3个子集，其比例分别为3%、10%和30。我们重新运行整个框架，包括与一个较弱的教师进行数据过滤。在K400-tr的验证集上的最终结果如图7所示。我们的框架不断提高性能，因为标记视频的百分比不同。特别是，当数据缺乏时，收益更大。与3%的标记数据相比，相对增加了30%以上。

Balancing between the target and auxiliary dataset. 我们调整目标数据集的批处理大小|BT|和辅助数据集|BA之间的比率，并在图8上获得精度。我们测试了3种场景：（1）原始G-k400，在SEC4.2中得到了澄清；（2）[G IG]-k400，GG-k400和IG-img的结合；（3）[G IG]-k400-一半，即（2)的一半）。我们观察到，在大多数情况下，性能增益对|BT|/|BA|的选择是稳健的。然而，由于辅助数据较少，必须更仔细地处理这一比率。例如，较小的|DA|但较大的|BA|可能导致过拟合辅助样本，并损害整体结果。

Resampling strategies. 目标数据集通常是跨类平衡的。好的属性不一定适用于辅助数据集。因此，我们提出了几种重采样策略。从表10中，我们看到，将分布定制为更平衡的分布的简单技术产生了非平凡的改进。

在这里插入图片描述

Conclusion

在本工作中，我们提出了OmniSource，一个简单而有效的网络监督视频识别框架。我们的方法可以利用来自多个来源和格式的Web数据，将它们转换为相同的格式。此外，我们的特定任务数据收集更具有数据效率。该框架适用于各种视频任务。在所有预训练策略的设置下，我们在多个基准上获得最先进的性能。

h137437

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Omni-sourced Webly-supervised Learning for Video Recognition

Omni-sourcedAbstract1 Introduction3 Proposed Method3.1 Overview3.2 Framework formulation3.3 Task-specific data collection3.4 Teacher filtering3.5 Transforming to the target domainJoint trainingDatasetsExperimentsVideo architecturesVerifying the efficacy of
复制链接

扫一扫