本文由牛津大学提出
作者主要研究针对视觉的自监督视频表示学习:
(i)研究了在基于实例的信息噪声对比估计(InfoNCE)训练中添加语义类肯定句的好处,表明这种形式的监督式对比学习可以明显改善性能;
(ii)提出了一种自监督协同训练方案,通过使用一个视图获取同一数据源的正视图样本来利用同一数据源的不同视图,即RGB流和光流的互补信息来改善InfoNCE损失。
(iii)在两个不同的下游任务(动作识别和视频检索)上全面评估所学表示的质量。
引言
作者以自监督视频表示学习为目标,提出一个问题:实例判别是否在充分利用数据?从两个方面证明答案是否定的:
首先,作者表明在自监督的训练中忽略了hard positives,如果包括这些hard positives,则学习表示的质量也会大大提高。
图1 视频片段与其对应的光流
其次,作者提出一种称为CoCLR的自监督式联合训练方法,代表“视觉表示的联合训练对比学习”,目的是通过使用数据的其他互补视图。作者选择RGB视频帧和光流作为两个视图。如图1所示,从流中获得的正值可用于“弥合” RGB视频剪辑实例之间的间隙。 反过来,从RGB视频片段获得的正片可以链接相同动作的光流片段。使用CoCLR算法进行训练的结果,超过了使用InfoNCE进行基于实例的训练所获得的性能,并且接近使用UberNCE进行的Oracle训练的性能。
作者通过改进视觉表示的对比学习中的采样过程来针对training regime训练制度。
这样做有两个好处:
第一,在训练中使用相同类别的(硬性hard)正面示例(例如,图1中所示的高尔夫挥杆动作);
第二,将这些正样本从实例级别的负样本中删除
本文主要使用另一视图提供的补充信息来改进RGB和Flow网络的表示。为了进行推断,可以选择仅使用RGB网络或Flow网络,或同时使用这两种网络。
作者为此进行了一个oracle实验,在该实验中,基于语义类标签将阳性样本合并到基于实例的训练过程中。在纯基于实例的学习和oracle版本之间观察到明显的性能差距。oracle是监督式对比学习的一种形式,它鼓励根据类标签进行要素表示的线性可分离性。
InfoNCE, UberNCE and CoCLR
通过InfoNCE和UberNCE学习
InfoNCE 给定具有N个原始视频剪辑的数据集,例如 D = { x 1 , x 2 , . . } D = \{x1,x2,.. \} D={ x1,x2,..} 自监督视频表示学习的目标是获得一个函数 f ( ⋅ ) f(·) f(⋅),该函数可有效地用于对各种下流任务(例如视频)的视频剪辑进行编码,,如动作识别,检索等
假设有一个增强函数 ψ ( ⋅ ; a ) ψ(·; a) ψ(⋅;a),其中a是从一组预定义的数据增强转换A中采样的,该转换A应用于D。对于特定样本 x i x_i xi,正集合 P i P_i Pi和负集合 N i N_i Ni 定义为: P i = { ψ ( x i ; a ) ∣ a 〜 A } P_i = \{ψ(x_i; a)| a〜A\} Pi={ ψ(xi;a)∣a〜A}, N i = { ψ ( x n ; a ) ∣ ∀ v n ! = i , a 〜 A } N_i = \{ψ(x_n; a)|∀v_n!= i,a〜A\} Ni={ ψ(xn;a)∣∀v