【论文翻译】A Large-Scale Study on Unsupervised Spatiotemporal Rep

本文提出了一项针对视频的无监督时空表征学习大规模研究,将图像无监督学习方法推广到时空领域。研究发现,鼓励特征在视频中的长时间持续性能够带来良好效果。通过对不同无监督框架、预处理数据集、下游数据集和骨干架构的实验,研究表明无监督预训练有时能优于有监督预训练。此外,研究涉及多个数据集、下游任务和消融实验,揭示了无监督视频表示学习的改进空间和潜在优势。
摘要由CSDN通过智能技术生成

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning翻译-CVPR2021

论文地址: https://arxiv.org/pdf/2104.14558.pdf
代码地址: https://github.com/facebookresearch/SlowFast
标题

摘要

我们提出了一个基于视频的大规模的无监督时空表征学习研究。我们从统一的角度研究了四种最新的基于图像的框架,研究了一个简单的目标,可以很容易地将所有这些方法推广到时空。我们的目标是鼓励在同一个视频中临时持久性的特征,尽管它很简单,但它在以下方面的工作令人惊讶地好:(i)不同的无监督框架,(ii)预处理数据集,(iii)下游数据集,以及(iv)骨干架构。我们从这项研究中得出了一系列有趣的观察结果,例如,我们发现鼓励长时间的持续性是有效的,即使时间跨度是60秒。除了在多个基准测试中取得最先进的结果外,我们还报告了几个有前景的案例,在这些案例中,无监督的预培训可以比有监督的预培训表现更好。

1. Introduction

最近一系列关于图像无监督表示学习的方法[36,12,32,9]都是基于数据增强下对同一图像的不同视图最大化相似目标[18,89]。除了对图像进行人工增强外,视频还可以在各种变化因素下对视觉内容进行自然增强,如运动、变形、遮挡和光照等。本工作旨在将这些基于图像的方法[36,12,32,9]推广到时空中。
我们研究一个简单的目标,可以很容易地纳入这些基于图像的方法。我们的假设是,视觉内容通常会随着视频中的一段时间持续存在。这种持续性可能包括一个动作(例如,一个人跳舞)、一个物体(例如,一个人从跑步过渡到步行)和一个场景(例如,一个人在移动的房间),覆盖短到长跨度,具有不同层次的视觉不变性(动作、物体、场景)。我们的目标只是鼓励同一视频的不同剪辑中的视觉表示是相似的。根据经验,我们发现这个目标在不同的无监督框架(MoCo [36], SimCLR [12], BYOL [32], SwAV[9])中都能很好地工作,无论是否使用不同的(阴性)样本。

1
图1。学习相同视频的不同时间片段之间的最大相似性会使特性随着时间的推移而持续。一个查询片段(q)与多个关键片段(k1;k2;:)暂时转移的。该方法可以合并到几个无监督学习框架(MoCo [36], SimCLR [12], BYOL [32], SwAV[9])中。上面的图表显示,增加临时片段的数量( ρ \rho ρ)可以提高所有这些框架的表示质量。
我们的目标是将图像 [18, 89] 中的作物自然地推广到视频中的片段。 这使得我们可以使用最近的无监督学习框架,并且只需要进行最小的修改。我们的目的是通过强制表征在时空上的持久性来学习视频中出现的范畴语义的高级表征。我们调查了一些因素,如有效时间跨度,t,正样本之间,和时间片段的数量, ρ \rho ρ,发现更长的时间跨度(最多一分钟)和多个样本有利于下游性能(图1)。
我们的无监督训练是在大规模数据上进行的,包括Kinetics[47](24万视频)和三个版本的百万级Instagram集。除了标准的线性探测,我们还评估多个分类和检测下游数据集的表示质量,例如Charades[75]、Something-Something[31]和AVA[33]。
我们的结果表明,无监督预训练可以在视频中取得竞争性的表现,并且在某些情况下可以超过有监督的预训练。最后,我们的研究还揭示了在多个方向上的改进空间。
综上所述,我们的大规模研究涉及以下五个方面:
(i)四个无监督学习框架(MoCo [36], SimCLR [12], BYOL [32], SwAV[9])从统一的角度来看,并与简单的时间持续性目标相结合;
(ii) 三个预训练数据集,包括相对控制良好的 Kinetics [47] 和相对“杂乱”的百万级 Instagram 集;
(iii) 6个下游数据集/任务用于评价表示质量;
(iv)不同因素的消融实验,如时间样本、对比目标、动量编码器、训练时间、骨干、数据增强、有组织与未组织、有修剪与未修剪等;和
(v)在已建立的基准上的无监督视频表示学习的最新结果,UCF-101 [77], HMDB51[50]和Kinetics-400[47]。

2. Related Work

图像中的无监督学习 近年来,人们对各种借口任务进行了积极的研究,这些任务与基于颜色或补丁的处理相关[67,94,17,64],对比目标的实例辨别[18,89,83,40,41,46,36,95,12,81],以及专注于正样本对的任务[8,9,32]。
最近的一些研究[28,35,3,68,2,71,92,62]涉及到基于图像的方法[36,8,12,89]。其中一些使用了光流(optical-flow)[81,35]、音频[3,68,2,62]和文本[79,2]的附加模式,将监督从一种模式转移到另一种模式。
与之前的工作相比,我们的工作研究的是纯视觉的无监督视频学习,并试图比较元方法的共同点。
评估协议和骨干 在大多数基于图像的方法中已经融合为具有ImageNet线性分类协议的ResNet-50[39]编码器,以及一些较小的下游任务[36,12,332,9]用于评估。在视频理解研究中,该领域尚未融合,并且正在使用不同的主干,重点关注两个相对较小的数据集的性能微调[77,50]。我们通过查看不同的编码器和6个不同的下游基准来研究这个方面。

3. Approach

这项工作的目的是研究几种最近的无监督表示学习方法来训练时空编码器 f θ f_\theta fθ,探索实现细节,并在一个共同的基础上,比较衡量它们在视频理解中的有效性。我们主要关注两种使用正和负样本的对比方法:SimCLR[12]和MoCo[36],以及两种仅依赖正样本的方法,BYOL[32]和SwAV[9](第3.2节)。
这些方法最初是为了学习图像表示而提出的,它们都有在空间图像输入的不同视图(作物/增强)中学习不变特征的目标。本文将这一思想推广到时域。我们的核心思想是学习一个编码器 f θ f_\theta fθ,该编码器在同一视频的多个 ( ρ \rho ρ ) 时间上遥远的剪辑上产生在时空中持久的嵌入。 这与慢特征分析 [88] 相关,其目标是最小化表示对输入的时间导数。 学习时间持久特征的一般想法并不新鲜,过去曾以类似的动机提出,例如 [6, 61, 29]。

3.1. 持续性时间特征学习
我们的框架采用未标记视频的不同增强片段 x x x并将它们传递给具有权重 θ \theta θ的编码器 f θ f_\theta fθ以获得相应的嵌入 q = f θ ( x ) q=f_\theta (x) q=fθ(x)。 编码器是时空 ConvNet,默认情况下是 ResNet-50 (R-50) [39],SlowFast Networks [20] 的仅慢速路径,这是一个 3D ResNet-50 [39],在卷积特征图中没有时间池化, 紧接着是一个 MLP 投影头部,它产生和输出维度 d d d
输入片段是用于时间空间维度的大小为 3 × T × S 2 3 \times T \times S^2 3×T×S2的RGB帧的堆栈,这些帧以时间步幅 τ \tau τ采样,即编码器仅处理原始视频的帧中的一个。 因此, T × τ T \times \tau T×τ定义了编码器的时间跨度和分辨率。
给定一小批 B B B个视频,我们的框架通过从视频中采样剪辑来创建一组 ρ B \rho B ρB个正例。 在本节中研究的学习方法论将“查询”样本 q q q与一组正“关键”样本 { k + } \{k^+\} { k+}的相似性最大化,这是从中计算与 q q

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值