WHAT SHOULD NOT BE CONTRASTIVEIN CONTRASTIVE LEARNING（2022）

Soul-Code

已于 2022-12-04 20:02:20 修改

阅读量819

点赞数 2

文章标签：人工智能 python 深度学习

于 2022-12-04 19:59:39 首次发布

本文链接：https://blog.csdn.net/qq_41764553/article/details/128176413

版权

WHAT SHOULD NOT BE CONTRASTIVEIN CONTRASTIVE LEARNING（2022）

由棵岩翻译支持 power by keyan translate
棵岩阅读 - 专为科研打造的阅读和知识发现工具

摘要最近的自监督对比方法已经能够通过学习对不同的数据增强的不变性来产生具有暗示性的可转移的视觉表征。然而，这些方法隐含地假设了一组特定的表征不变性，当下游任务违反这一假设时，这些方法可能表现不佳。本文引入了一个对比性学习框架，它不需要事先知道具体的、与任务相关的不变性。在本文研究的所有任务中，不变空间和变化空间的串联表现最好，包括粗粒度、细粒度和少量拍摄的下游分类任务，以及各种数据损坏。

1 导论

自我监督学习，使用原始图像数据和/或可用的借口任务作为它自己的超级视觉，已经变得越来越流行，因为监督模型无法超越它们的训练数据，这一点已经变得很明显。然而，通过这种增强引入的归纳偏见是一把双刀，因为每个增强都鼓励对变换的不变性，而这种变换在某些情况下是有益的，在其他情况下是有害的。在这项工作中，我们建议在对比性学习框架中学习视觉表征，以捕捉个体的变化因素，而不需要假定下游不变性的先验知识。

我们的模型不是将图像映射到一个单一的嵌入空间，该空间对所有手工制作的增强都是不变的，而是学习构建单独的嵌入子空间，每个子空间对特定的增强敏感，而对其他增强不变。我们通过使用一个具有共享主干的多头架构来优化多个对增强敏感的对比性目标来实现这一目标。我们的模型旨在将每个增量的信息保存在一个统一的表示中，并学习它们的不变性。然后，用这些增强训练出来的一般表征可以应用于不同的下游任务，其中每个任务都可以自由地在我们的表征中选择性地利用不同的变化因素。
在这里插入图片描述

图1：自我监督的对比学习依赖于数据增强，如(a)中所描述的，以学习视觉表征。然而，目前的方法通过鼓励神经网络对信息不那么敏感而引入了归纳偏见，这可能有助于或可能伤害。如(b)所示，旋转不变的嵌入可以帮助某些花类，但可能会影响动物的识别性能；反之，颜色不变性通常似乎有助于粗粒度的动物分类，但会伤害许多花类和鸟类类别。我们的方法，如下图所示，克服了这一限制。
在本文中，我们试验了三种类型的增强：旋转、颜色抖动和纹理随机化，如图1所示。我们在各种不同的任务中评估了我们的方法，包括大规模分类、细粒度分类、少量分类和损坏数据的分类。我们的表述显示，随着扩增次数的增加，性能会有一致的提高。我们的方法不需要手工选择数据增强策略。具体来说，当应用于iNaturalist数据集时，我们获得了比MoCoin分类约10%的改进。

2 背景：对比性学习框架

对比学习通过对数据样本的相似性和不相似性进行最大化来学习表征，这些数据样本分别被组织成相似和不相似的一对。它可以被表述为一个字典查询问题，其中一个给定的参考图像I被增强为两个视图，即查询和键，查询标记q应该与其他图像中一组采样的负键{k-}匹配其指定的键k+。

归纳偏见是通过选择增量以及定义每个增量的强度的超参数引入的，即同一实例的随机增量模块T的任何视图都被映射到嵌入空间的同一点上。这一特性对学习到的表征产生了负面影响。

3 LooC

我们提出了 "留一 "对比学习（LooC），一个多增强对比学习的框架。我们的框架可以有选择地防止扩增所产生的信息损失。在我们的LooC方法中，输入图像的表征不是将每个视图投射到一个单一的嵌入空间中，而是投射到几个嵌入空间中，每个空间对某个增强空间都是不变的，而对其他空间保持不变，如图2所示。这样一来，每个嵌入子空间都被专门化为单一的增强，而共享层将同时包含增强变化和不变的内形。我们与几个嵌入空间共同学习一个共享表征；我们将单独的共享表征或所有空间的串联转移到下游任务中。
在这里插入图片描述

图2：留一对比学习方法的框架，用两种类型的增强，即随机旋转和颜色抖动来说明。我们用留一策略生成多个视图，然后将它们的表征投射到具有对比性目标的独立嵌入空间中，其中每个嵌入空间要么对所有的增强都是不变的，要么对除一个增强以外的所有增强都是不变的。学习到的表征可以是一般的嵌入空间V（蓝区），或嵌入子空间Z的串联（灰色区域）。我们的结果表明，我们提出的任何一种表征都能够胜过基线对比嵌入，并且在添加任务不不变的增强物（即图1中的红色X）时，不会受到性能下降的影响。
如表所示，该架构能够成功地稳定整个200毫秒控制窗口中的液滴，并提高每个域内的电流。这突出了一个通用的、基于学习的控制架构的优势，以适应对以前未知配置的控制。我们的结论是，在InSight半球群中，大部分的低频事件都在Cerberus Fossae中央。浅层高频地震性似乎分布在Fossae的大部分地区，而不是更集中的深层低频事件的分布。

4 实验

方法。我们采用动量对比学习作为我们框架的骨干，因为它的功效和效率，并纳入了（Chen等人，2020b）的改进版本。我们使用三种类型的增强作为静态图像数据的借口任务。我们应用随机调整大小的裁剪、水平翻转和高斯模糊作为没有指定嵌入空间的增强。请注意，随机旋转和纹理随机化在最先进的基于对比学习的方法中没有被利用，对于LooC和LooC++来说，增强的额外密钥只被送入密钥编码网络，该网络没有反向传播，因此它不会增加多少计算量或GPU内存消耗。

数据集和评估指标。我们在100个类别的ImageNet（IN-100）数据集上训练我们的模型，用于对提议的框架进行快速消融研究。我们按照（Tian等人，2019）对子集进行分割。这使我们能够直接验证来自不同模型的特征的质量，产生更多可解释的结果。我们在不同的下游数据集上测试这些模型（更多信息包括在附录中）。
在这里插入图片描述

表1：在线性评估协议下，对4类旋转和IN-100的分类精度。将旋转增强添加到基线MoCo中，大大降低了其对旋转角度的分类能力，同时降低了其在IN-100上的性能。相比之下，我们的方法更好地利用了新增强的信息增益。
实施细节。对于大多数训练超参数，我们严格遵循（Chen et al., 2020b）。我们使用ResNet-50（He等人，2016）作为我们的特征提取器。我们对网络进行了500个历时的训练，并在300和400个历时时时降低学习率。我们对单个嵌入空间使用单独的队列（He等人，2020），并将队列大小设置为16,384。

对增量归纳偏见的研究。我们首先设计了一个实验，使我们能够直接测量增量对增量敏感的下游任务有多大影响。例如，考虑两个可以在IN-100上定义的任务。任务A是输入图像的旋转度的4类分类；任务B是ImageNet对象的100类分类。我们用随机旋转的IN-100图像为任务A训练一个有监督的线性分类器，用未旋转的图像为任务B训练另一个分类器。我们进一步实现了变异，强制要求查询和密钥的随机旋转角度始终相同。
在这里插入图片描述

表2：对多个下游任务的评估。随着扩增次数的增加，我们的方法表现出卓越的通用性和可转移性。
细粒度的识别结果。无监督学习的一个突出应用是学习可转移和可推广到各种下游任务的特征。为了公平地评估这一点，我们将我们的方法与原始的MoCo在一组不同的下游任务上进行比较。表2列出了iNat-1k、CUB-200和Flowers-102的结果。尽管在IN-100上表现出略微超强的性能，但原始的MoCo在所有其他数据集上都以明显的优势落后于我们的LooC对应方。比较结果表明，我们的方法可以更好地保留颜色信息。通过使用LooC和两种增强方法，性能得到了进一步的提高，证明了同时学习信息对多种增强方法的有效性。
在这里插入图片描述

表3：对真实世界的腐败数据集的评估。旋转增强对ON-13是有益的，如果对IN-C-100有利，则纹理增强也是有益的。
稳健性学习结果。表3比较了我们的方法与MoCo和监督模型在ON-13和IN-C-100上的表现，这两个测试集用于在各种噪声条件下的真实世界数据泛化。线性分类器是在标准的IN-100上训练的，不能接触到测试分布。完全监督的网络对扰动最敏感，尽管它在源数据集IN-100上有最高的准确性。我们还看到，旋转增强对ON-13是有益的，但在IN-C-100中明显降低了对数据损坏的鲁棒性。相反，纹理随机化增加了IN-C-100在所有腐败类型上的鲁棒性，特别是在 "模糊 "和 "天气 "上，以及在高于或等于3的严重性水平上，因为表征必须对局部噪声不敏感，以学习纹理不变的特征，但它在ON-13上的改进是微不足道的。结合旋转和纹理增强在两个数据集上都产生了改进，而LooC++在IN-C-100上进一步提高了其性能。
在这里插入图片描述

图3：在IN-100和iNat-1k上，LooC与相应的带有颜色（左）和旋转（右）增强的不变MoCo基线的顶部近邻检索结果。结果表明，尽管我们的模型是用这些增强物训练出来的，但它能更好地保留依赖于颜色和旋转的信息。
定性结果。在图3中，我们展示了使用LooC学习的特征与相应的MoCo基线的最近邻检索结果。排名靠前的检索结果表明，我们的模型可以更好地保留信息，这些信息对对比学习中使用的增强方法中提出的转换并不不变。

我们比较了我们的方法和用所有增强物训练的MoCo。我们还为MoCo添加了多个Conv5头，称为MoCo++，以便与LooC++进行公平比较。结果列于表4。使用多个头可以提高基线MoCo的性能，然而，与基线同类方法相比，我们的方法取得了更好或相当的结果。
在这里插入图片描述

表4：LooC与用所有增强方法训练的MoCo的比较。
在这里插入图片描述

表5：在LooC++联合训练的颜色、旋转和纹理增强中，将不同嵌入空间的特征连接起来的比较。不同的下游任务显示出对依赖增强或不变的表征的非相同偏好。请注意，表2至表5中的结果应该在表1的大背景下进行解释。表1说明了不分离增量的变化因素和不变因素（在这种情况下，旋转）的灾难性后果。可以想象，如果我们在表4中加入 "旋转分类–作为下游任务，MoCo++的表现将和表1一样差。我们工作的关键是避免表1中发生的事情，同时提高性能。

我们用所有类型的增强来训练LooC++，随后用来自不同嵌入空间的串联特征来训练多个线性分类器：全变量、颜色、旋转和纹理。任何额外的方差特征都会提高IN-100、iNat-1k和Flowers-102的性能。添加与纹理相关的特征会降低IN-C-100的性能。添加与旋转有关的特征增加了IN-C-100的性能。IN-100中大多数类别的旋转对象是罕见的，因此线性分类器很容易使用与旋转有关的特征，因此由旋转不变量增强引发的IN-C-100上的下降被重新获得。使用所有类型的特征在IN-100、iNat-1k和Flowers-102上产生了最好的性能；在IN-C-100上使用所有增强的性能仍然与MoCo相当，MoCo不会受到旋转不变性带来的鲁棒性损失。
在这里插入图片描述

图4：来自IN-100和iNat-1k的每个依赖增强的头的正确预测（激活×分类器的权重）柱状图。IN-100上的分类器严重依赖与纹理有关的信息，而在iNat-1k上的分类器则要平衡得多。这与在用多种增强方法学习时观察到的改进收益是一致的。

5 相关工作

预设任务。在计算机视觉中，在深度学习的广泛应用之前，特征设计和工程曾经是一个核心话题。研究人员提出利用线索组合进行图像检索和识别任务。最近深度学习中无监督表征学习的发展也通过设计不同的自监督借口任务取得了进展，每个借口任务所引入的归纳偏见往往与相应的手工制作的描述符相关。

多任务自监督学习。多任务学习已被广泛应用于图像识别。然而，联合优化多个任务并不总是有益的。搜索权重通常需要标签，而且很耗时，而且不能推广到不同的任务。在本文中，我们还提出学习表征，它可以对来自不同增强的信息进行因子化和统一。

目前的对比学习方法依靠特定的增量衍生的变换不变性来学习视觉表征，如果假定有错误的变换不变性，可能会在下游任务中产生次优的性能。我们提出了一个新的模型，它通过构建多个嵌入来学习与变换相关的表征和不变的表征，每个嵌入都不与单一类型的变换形成对比。我们的框架在粗粒度、细粒度、少量拍摄的下游分类任务上优于基线对比方法，并对现实世界的数据损坏表现出更好的鲁棒性。