论文翻译——Revisiting Self-Supervised Visual Representation Learning

最新推荐文章于 2023-12-18 15:14:12 发布

~拾捌~

最新推荐文章于 2023-12-18 15:14:12 发布

阅读量288

点赞数

文章标签：深度学习计算机视觉人工智能

原文链接：https://arxiv.org/pdf/1901.09005.pdf

版权

论文探讨了自我监督的视觉表示学习中，CNN架构选择的重要性。研究发现，标准的CNN设计在自我监督设置中可能不适用，而增加模型宽度和使用跳过连接可以显著提高表示质量。实验结果显示，旋转预测任务在某些架构中表现优秀，而线性模型评估是足够的。此外，自我监督技术的表现受到数据集和模型宽度的强烈影响，SGD训练过程的优化参数也至关重要。

摘要由CSDN通过智能技术生成

论文翻译——Revisiting Self-Supervised Visual Representation Learning

重新审视自我监督的视觉表征学习

文章目录

论文翻译——Revisiting Self-Supervised Visual Representation Learning
摘要
一、介绍
二、相关工作
三、自我监督研究设置
四、实验和结果
五、结论
- 参考文献

论文地址：https://arxiv.org/pdf/1901.09005.pdf
代码地址：https://github.com/google/revisiting-self-supervised

摘要

在计算机视觉研究中，无监督的视觉表征学习仍然是一个很大程度上尚未解决的问题。在最近提出的大量无监督视觉表示学习方法中，一类自监督技术在许多具有挑战性的基准测试上取得了优异的性能。已经研究了大量用于自我监督学习的借口任务，但其他重要方面，如卷积神经网络（CNN）的选择，尚未得到同等重视。因此，我们重新审视了许多先前提出的自我监督模型，进行了彻底的大规模研究，结果发现了多个关键见解。我们挑战了自监督视觉表示学习中的一些常见实践，并观察到CNN设计的标准配方并不总是转化为自监督表示学习。作为我们研究的一部分，我们大幅提高了先前提出的技术的性能，并大大超过了先前发表的最新成果

一、介绍

自动计算机视觉系统最近取得了重大进展。许多用于处理具有挑战性任务的模型，如对象识别、语义分割或对象检测，现在可以在复杂的视觉基准上与人类竞争[15，48，14]。然而，此类系统的成功取决于大量的标记数据，这些数据并不总是可用的，而且获取这些数据的成本往往高得令人望而却步。此外，这些系统是针对特定场景定制的，例如，在ImageNet（ILSVRC-2012）数据集上训练的模型[41]只能识别1000个语义类别，或者训练为在白天感知道路交通的模型在黑暗中可能不起作用[5，4]。

因此，目前大量的研究工作集中在能够适应新条件而无需利用大量昂贵的监督的系统上。这项工作包括迁移学习、领域自适应、半监督、弱监督和无监督学习的最新进展。在本文中，我们专注于自监督视觉表示学习，这是一个有前途的无监督学习子类。自我监督学习技术在标准计算机视觉基准上产生最先进的无监督表示[11，37，3]。

自我监督学习框架仅需要未标记的数据，以便制定借口学习任务，例如预测上下文[7]或图像旋转[11]，对于该任务，可以在没有监督的情况下计算目标目标。这些借口任务必须以这样的方式设计，即高级图像理解有助于解决这些问题。结果，为解决这些借口任务而训练的卷积神经网络（CNN）的中间层编码了高级语义视觉表示，这些表示对于解决诸如图像识别之类的感兴趣的下游任务是有用的。

大多数先前的工作旨在提高自我监督技术的性能，通过提出新的借口任务并表明它们可以改善表现。相反，我们建议更仔细地研究CNN架构。我们重新审视了先前提出的借口任务的一个子集，并使用各种架构作为基础模型进行了大规模的实证研究。作为这项研究的结果，我们发现了许多重要的见解。最重要的总结如下：

标准架构设计方案不一定从完全监督的设置转换为自我监督的设置。在完全标记的设置中，架构选择对性能的影响可以忽略不计，但在自我监督的设置中可能会显著影响性能。
与AlexNet架构[11，51，34]的先前观察相比，具有跳过连接的CNN架构中的学习表示质量在模型结束时不会降低。
增加CNN模型中滤波器的数量，因此，表示的大小显著且一致地提高了学习的视觉表示的质量。
在使用随机梯度下降在固定视觉表示上训练线性模型的评估过程中，该评估过程对学习率计划很敏感，并且可能需要很多时间才能收敛。

在第4节中，我们展示了支持上述观察的实验结果，并提供了对自我监督学习环境的更多深入见解。我们公开了复制核心实验结果的代码。

在我们的研究中，我们获得了无标记数据学习的视觉表示的最新最新结果。有趣的是，如果使用适当的CNN架构，引发了对自我监督视觉表征学习的兴趣并作为后续研究的基线的上下文预测[7]技术的表现优于所有当前发表的结果（在关于自我监督学习的论文中）。
在这里插入图片描述
图1。通过各种自监督学习技术学习的视觉表示的质量显著依赖于用于解决自监督学习任务的卷积神经网络架构。在本文中，我们提供了一项大规模的深入研究，以支持这一观察，并讨论了其对自我监督模型评估的影响。

二、相关工作

自我监督是一种学习框架，其中自动创建借口任务的受监督信号，以学习对解决现实世界下游任务有用的表示。作为一个通用框架，自我监督具有广泛的应用，从机器人到图像理解。

在机器人技术中，与世界交互的结果以及多种感知方式同时获得感官输入的事实都是强大的信号，可用于创建自我监督任务[22，44，29，10]。

类似地，当从视频学习表示时，可以利用音频、视频和潜在字幕的同步跨模态流[38、42、26、47]，或者利用时间维度的一致性[44]。

在本文中，我们关注从图像数据库学习的自我监督技术。这些技术已经证明了学习高级图像表示的令人印象深刻的结果。受来自自然语言处理领域的无监督方法的启发[31]，Doersch等人[7]提出了一个实际成功的预测图像块相对位置的借口任务。这项工作催生了一系列基于补丁的自监督视觉表示学习方法。其中包括[34]中的一个模型，该模型预测了根据完整图像和最近的随访[32，36]创建的“拼图”的排列。

与基于补丁的方法相比，一些方法生成了设计巧妙的图像级分类任务。例如，在[11]中，Gidaris等人提出将图像随机旋转四个可能角度之一，并让模型预测旋转。创建类标签的另一种方法是使用图像的聚类[3]。Y等另一类借口任务包含具有密集空间输出的任务。一些突出的例子是图像修复[40]、图像着色[50]、其改进的变体分裂大脑[51]和运动分割预测[39]。其他方法反而对表示空间施加了结构约束。Noroozi等人提出了一种等变关系，以将多个平铺表示的和与单个缩放表示相匹配[35]。[37]的作者提出通过自回归预测编码来预测表示空间中的未来补丁。

我们的工作是对先前讨论的方法的补充，这些方法引入了新的借口任务，因为我们展示了现有的自我监督方法如何从我们的见解中显著受益。

最后，许多作品试图以一种或另一种方式组合多个借口任务。例如，Kim等人在[25]中将“拼图”任务与着色和修复相结合，从而扩展了该任务。如[3]所示，将拼图任务与基于聚类的伪标签相结合，产生了名为jigsaw++[36]的方法。Doersch和Zisserman[8]实现了四种不同的自我监督方法，并使单个神经网络在多任务环境中学习所有这些方法。

后一项工作与我们的工作类似，因为它包含了使用统一神经网络架构的不同自我监督方法的比较，但目标是将所有这些任务组合成一个单独的自我监督任务。作者在没有进一步调查的情况下使用了修改的ResNet101架构[16]，并探索了多个任务的组合，而我们的重点在于调查架构设计对表示质量的影响。

三、自我监督研究设置

在本节中，我们将描述我们的学习设置，并激励我们的关键选择。我们首先在第3.1节中介绍了六个CNN模型，然后在第3.2节中描述了我们研究中使用的四种自我监督学习方法。随后，我们在第3.3节和第3.4节中定义了评估指标和数据集。更多实施细节见补充材料。

3.1 CNN模型的架构

视觉表示方法的自监督技术的很大一部分使用AlexNet[27]架构。在我们的研究中，我们调查了在使用现代网络架构时，自我监督技术的前景是否会发生变化。因此，我们采用了ResNet的变体和批量标准化VGG架构，所有这些都在完全监督的训练设置中实现了高性能。VGG在结构上接近AlexNet，因为它没有跳过连接，并且使用完全连接的层。

在我们的初步实验中，我们观察到ResNet模型的一个有趣的特性：他们学习的表示的质量在网络末端不会降低（见第4.5节），因此即使当信息与借口任务无关时，也有助于在整个深度上保存信息。基于这一假设，我们将RevNets[12]纳入我们的研究，该研究具有更强的可逆性保证，同时在结构上与ResNets相似。

ResNet由He等人[16]引入，我们使用了[49]中提出的宽度参数化：第一个 $7 \times 7$ 卷积层输出 $16 \times k$ 个信道，其中 $k$ 是加宽因子，默认为 $4$ 。随后是一系列 $y:=x+\mathcal{F}(x)$ 形式的残差单元，其中 $\mathcal{F}$ 是由多个卷积、ReLU非线性[33]和批归一化层[20]组成的残差函数。我们使用的变体ResNet50由四个块组成，分别具有3、4、6和3个这样的单元，我们将每个块的输出称为 $b l oc k 1$ 、 $b l oc k 2$ 等。网络以生成大小为 $512 \times k$ 的向量的全局空间平均池结束，我们称之为 $p re - l o g i t s$ ，因为它后面只有最终的任务特定 $l o g i t s$ 层。[16]中提供了该架构的更多细节。

在我们的实验中，我们探索 $k∈{4，8，12，16}$ ，得到大小分别为 $2048$ ， $4096$ ， $6144$ 和 $8192$ 的 $p re - l o g i t s$ 。对于一些自我监督的技术，我们跳过不适合内存的配置。

此外，我们通过使用两种称为ResNet v1[16]和ResNet v2[17]的排序操作变体，以及在全局平均池之前没有ReLU的变体（我们用“（-）”标记），分析了自监督设置对底层架构细节的敏感性。值得注意的是，这些变体在借口任务上的表现类似。

RevNet略微修改了残差单元的设计，使其成为分析可逆的[12]。我们注意到[12]中使用的残差单位等效于[21]或[6]中的残差单位的双重应用。因此，为了简化概念，我们采用后一种类型的单元，其定义如下。输入 $x$ 按通道划分为两个相等的部分 $x_1$ 和 $x_2$ 。输出 $y$ 是 $y_2:=x_2$ 和 $y_1:=x_1+\mathcal{F}(x_2)$ 的级联。

很容易看出，这个残差单位是可逆的，因为它的逆可以以封闭形式计算为 $x_2=y_2$ 和 $x_1=y_1−\mathcal{F}(x_2)$ 。

除了这个略有不同的残余单元外，RevNet在结构上与ResNet相同，因此我们对两者使用相同的总体架构和术语。在我们的实验中，我们使用RevNet50网络，该网络具有与原始Resnet50模型相同的深度和通道数量。在完全标记的设置中，RevNet的性能仅略低于其架构上等效的ResNet。

VGG是[45]提出的，由一系列 $3 \times 3$ 卷积和ReLU非线性组成。我们使用的VGG19变体具有5个这样的块，分别为2、2、4、4和4个卷积。我们遵循在卷积和非线性之间添加批量归一化的常见做法。

为了统一ResNets的命名法，我们引入了加宽因子 $k$ ，使得 $k = 8$ 对应于[45]中的架构，即初始卷积产生 $8 \times k$ 信道，而完全连接的层具有 $512 \times k$ 信道。此外，我们分别调用第二、第三、第四和第五个最大池操作 $b l oc k 1$ 到 $b l oc k 4$ 的输入，以及最后一个完全连接的层预登录的输入。

3.2 自我监督技术

在本节中，我们将介绍研究中使用的自我监督技术。

旋转[11]：Gidaris等人提出通过旋转 ${0°,90°,180°,270°\}$ 生成单个图像的4个副本，并让单个网络预测应用于4类分类任务的旋转。直觉上，一个好的模型应该学会识别自然图像中对象的规范方向。

示例[9]：在这种技术中，每个单独的图像都对应于它自己的类，并且它的多个示例是通过大量随机数据增强生成的，例如平移、缩放、旋转、对比度和颜色偏移。我们使用[46]中的数据扩充机制。[8] 建议使用三元组丢失[43，18]，以便将该借口任务扩展到ImageNet数据集中存在的大量图像（因此，类）。三元组丢失避免了显式的类标签，相反，鼓励同一图像的示例具有在欧几里得空间中接近的表示，同时也远离不同图像的表示。示例表示由1000维 $l o g i t s$ 层给出。

拼图[34]：任务是在对9个随机采样的图像块进行随机排列后，恢复这些块的相对空间位置。所有这些补丁都通过同一个网络发送，然后它们来自 $p re - l o g i t s$ 层的表示被连接起来，并通过两个隐藏层完全连接的多层感知器（MLP），该感知器需要预测所使用的置换。在实践中，使用[34]中的100个置换的固定集合。

为了避免依赖于低级别图像统计（如色差[34]或边缘对齐）的捷径，对补丁进行随机间隔采样。然后将每个面片独立转换为概率为 $2/3$ 的灰度，并归一化为零均值和单位标准差。补充材料中提供了预处理的更多细节。训练后，我们通过对图像的九个均匀采样、彩色和标准化补丁的表示进行平均来提取表示。

相对补丁位置[7]：借口任务包括预测图像的两个给定补丁的相对位置。该模型与Jigsaw模型相似，但在这种情况下，需要预测两个面片之间的8种可能的相对空间关系，例如“下方”或“右侧和上方”。我们使用与Jigsaw模型中相同的面片预处理，并通过平均9个裁剪面片的表示来提取最终图像表示。

3.3 学习视觉表征的评估

我们遵循常规做法，通过使用学习的视觉表示来训练线性逻辑回归模型，以解决需要高级场景理解的多类图像分类任务，从而评估学习的视觉表达。这些任务称为 $d o w n s t re am$ $t a s k s$ 下游任务。我们在 $p re - l o g i t s$ 阶段从（冻结的）网络中提取表示，但在第4.5节中调查其他可能性。

为了实现快速评估，除非另有规定，否则我们使用有效的凸优化技术来训练逻辑回归模型。具体而言，我们预先计算所有训练图像的视觉表示，并使用L-BFGS训练逻辑回归[30]。

为了一致性和公平评估，与表1中的现有文献相比，我们选择使用动量随机梯度下降（SGD），并在训练期间使用数据增强。

我们在第4.3节中进一步研究了这一常见的评估方案，其中我们使用了一个更具表现力的模型，即具有1000个通道的单个隐藏层的MLP以及其后的ReLU非线性。补充材料中给出了更多细节。
在这里插入图片描述
表1。基于各种CNN架构的自监督技术的表示评估。分数是使用ImageNet训练分割在这些表示之上训练的线性逻辑回归模型的准确度（%）。我们的验证分割用于计算精度。标有“（-）”的架构是第3.1节中描述的轻微变化。子列（如4×）对应于加宽系数。专栏中表现最好的架构是粗体的；每个模型的最佳借口任务都有下划线。

3.4 数据集

在我们的实验中，我们考虑了两个广泛使用的图像分类数据集：ImageNet和Places205。

ImageNet包含大约130万个自然图像，代表1000个不同的语义类。官方验证和测试集中有50000张图像，但由于官方测试集是私有的，因此文献中的结果将在验证集上报告。为了避免过度拟合官方验证分割，我们报告了除表2之外的所有研究中我们自己的验证分割数据（来自训练分割的50000张随机图像），为了与我们在官方验证集上评估的文献进行公平比较。

Places205数据集由大约250万张图像组成，描绘了205种不同的场景类型，如机场、厨房、海岸等。该数据集与ImageNet在质量上有所不同，因此，是评估学习到的表示如何推广到不同性质的新的不可见数据的良好候选。出于同样的原因，我们遵循与ImageNet相同的验证拆分程序。
在这里插入图片描述
表2。将已发布的自我监督模型与我们的最佳模型进行比较。分数对应于线性逻辑回归的准确性，该线性逻辑回归是在自监督模型提供的表示之上训练的。ImageNet和Places205的官方验证分割用于计算精度。“系列”列显示了参考文献中使用的基本模型架构：AlexNet、VGG风格或残余。

四、实验和结果

在本节中，我们介绍并解释了大规模研究的结果。所有自我监督的模型都在ImageNet（无标签）上进行了培训，并因此在我们自己的ImageNet和Places205的支持验证部分上进行了评估。仅在表2中，当我们与先前文献的结果进行比较时，我们使用了官方的ImageNet和Places205验证分割。

4.1 ImageNet和Places评估2005

在表1中，我们强调了我们的主要评估结果：我们测量了六种不同的CNN架构产生的具有不同扩展因子的表示质量（第3.1节），使用四种自监督学习技术（第3.2节）进行了训练。我们使用训练的自监督网络的 $p re - l o g i t s$ 作为表示。我们遵循标准评估协议（第3.3节），该协议将表示质量衡量为在ImageNet数据集上训练和评估的线性回归模型的准确性。

现在，我们讨论可以从表中学习到的关键见解，并激励我们进一步深入分析。首先，我们观察到，相似的模型通常会导致具有显著不同性能的视觉表示。重要的是，体系结构的排名在不同方法之间也不一致，方法的排名在体系结构中也不一致。例如，RevNet50 v2模型在轮换自我监督下表现出色，但在其他场景中不是最佳模型。类似地，当基于ResNet50 v1体系结构进行比较时，相对补丁位置似乎是最佳方法，但并非如此。值得注意的是，VGG19-BN始终表现出最差的性能，尽管它在标准视觉基准上实现了与ResNet50模型相似的性能[45]。请注意，VGG19-BN在使用比使用prelogit层更早的层的表示时表现更好，但仍有不足。我们在第4.5节对此进行了调查。我们在图2（左）中描述了具有最大加宽因子的模型的性能，图中显示了这些排名不一致。

我们的第二个观察结果是，增加CNN模型中的频道数量可以提高自我监督模型的性能。虽然这一发现符合完全监督的设置[49]，但我们注意到，在自我监督的表征学习的背景下，这一优势更为明显，这一事实在文献中尚未得到承认。

我们进一步评估了在ImageNet上以自我监督方式训练的视觉表示如何推广到其他数据集。具体来说，我们使用相同的评估协议评估Places205数据集上的所有模型。图2（右）报告了具有最大加宽系数的模型的性能，补充材料中提供了完整的结果表。我们观察到以下模式：Places205上评估的模型的排名与ImageNet上评估模型的排名一致，这表明我们的发现适用于新的数据集。
在这里插入图片描述
图2:不同的网络体系结构在自我监督任务中的表现显著不同。这一观察结果概括了数据集：ImageNet评估显示在左侧，Places205显示在右侧。

4.2 与先前工作的比较

为了将我们的发现放在上下文中，我们从表1中选择了每个自我监督的最佳模型，并将其与文献中报告的数字进行比较。仅对于该实验，我们通过在完整ImageNet训练分割上训练具有随机梯度下降（SGD）的线性模型，并在ImageNet和Places205的公共验证集上对其进行评估，从而精确地遵循标准协议。我们注意到，在这种情况下，评估的学习率时间表起着重要作用，我们在第4.7节中对此进行了详细阐述。

表2总结了我们的结果。令人惊讶的是，由于为每个自我监督选择了正确的架构并增加了扩展因子，我们的模型显著优于先前报告的结果。值得注意的是，上下文预测[7]是最早发表的方法之一，在ImageNet上达到了51.4%的前1精度。我们最强的模型，使用旋转，达到了前所未有的高精度，55.4%。对Places205进行评估时，也有类似的观察结果。

重要的是，我们的设计选择使之前发布的自我监督结果和完全监督结果之间的差距在两个标准基准上几乎减半。总之，这些结果强化了我们的主要观点，即在自我监督学习架构中，选择与选择借口任务一样重要。

4.3 线性模型足以进行评估

使用线性模型来评估表示的质量要求与评估任务相关的信息在表示空间中是线性可分离的。这不一定是“有用”表示的先决条件。此外，在评估过程中使用更强大的模型可能会使自监督任务的架构选择变得不那么重要。因此，我们考虑了另一种评估方案，其中我们使用多层感知器（MLP）来解决评估任务，其详细信息在补充材料中提供。

图3清楚地表明，与线性评估相比，MLP仅提供了边际改善，各种设置的相对性能基本不变。因此，我们得出结论，线性模型足以用于评估目的。
在这里插入图片描述
图3。将表示的线性评估（…）与非线性评估（——）进行比较，即训练多层感知器而不是线性模型。线性评估并不是限制性的：从中得出的结论会延续到非线性评估。

4.4 借口任务的更好表现并不总是意味着更好的表现

在自我监督方法的许多潜在应用中，我们无法使用下游标签进行评估。在这种情况下，从业者如何决定使用哪种模型？借口任务的执行是一个好的代理吗？

在图4中，我们根据ImageNet上的评估绘制了借口任务的性能。事实证明，只有在模型体系结构固定后，“借口性能”任务才是一个好的代理，但遗憾的是，它不能用于可靠地选择模型体系结构。需要设计其他无标签的模型选择机制，我们认为这是未来工作的一个重要和未充分探索的领域。
在这里插入图片描述
图4。看看预测性借口性能对最终下游性能的影响。颜色与图3中的体系结构相对应，圆圈大小与加宽因子k相对应。在体系结构中，借口性能具有一定的预测性，但在整个体系结构中并非如此。例如，根据借口准确性，最宽的VGG模型是旋转的最佳模型，但它在下游任务中表现不佳。

4.5 跳过连接可防止表示质量在接近CN结束时下降

我们感兴趣的是表示质量如何取决于层选择，以及跳过连接如何影响这种依赖性。因此，我们评估了三个模型中五个中间层的表示：Resnet v2、RevNet和VGG19-BN。结果汇总在图5中。

类似于AlexNet[28]的先前观察[11，51，34]，VGG19-BN中的表示质量在网络末端恶化。我们认为，之所以会出现这种情况，是因为模型专门用于后面层中的借口任务，因此会丢弃中间层中存在的更一般的语义特征。

相反，我们观察到，对于具有跳过连接的模型，情况并非如此：ResNet中的表示质量一直增加到最终的 $p re - l o g i t s$ 层。我们假设这是ResNet的剩余单位在某些条件下可逆的结果[2]。可逆单元保存在中间层中学习的所有信息，从而防止表示质量的恶化。

我们通过使用具有更强可逆性保证的RevNet模型进一步检验了这一假设。事实上，它在轮换任务中提高了 $5\%$ 以上的性能，尽管它不会导致其他任务的改进。我们将为未来的研究确定Revnet模型会显著提高性能的进一步场景。
在这里插入图片描述
图5。从网络内的不同深度评估表示。纵轴对应于下游ImageNet性能（百分比）。对于残余体系结构，pre-logits总是最好的。

4.6 模型宽度和表示大小强烈影响表示质量

表1显示，使用更广泛的网络架构一致地导致更好的表示质量。需要注意的是，增加网络宽度的副作用也会增加最终表示的维度（第3.1节）。因此，不清楚性能的增加是由于网络容量的增加还是由于使用更高维度的表示，还是由于两者的相互作用。

为了回答这个问题，我们采用最佳旋转模型（RevNet50），通过添加额外的线性层来控制 $p re - l o g i t s$ 层的大小，将网络宽度从表示大小中分离出来。然后，我们彼此独立地改变加宽因子和表示大小，使用旋转借口任务在ImageNet上从头开始训练每个模型。在ImageNet分类任务中评估的结果如图6所示。从本质上讲，可以通过增加模型容量或表示大小来提高性能，但同时增加这两者对提高性能最有帮助。值得注意的是，通过增加表示大小，可以将非常薄的模型的性能从 $31\%$ 显著提高到 $43\%$ 。

低数据状态。原则上，增加模型容量和表示大小的有效性可能仅适用于下游评估的相对较大的数据集，并且可能会损害低数据状态下的表示有用性。在图7中，我们使用完整和大量二次采样（ $10\%$ 和 $5\%$ ）ImageNet和Places205数据集描述了通道数量如何影响评估。

我们观察到，在全数据和低数据状态下，增加加宽因子始终会提高性能。我们在补充材料中提出了更多的低数据评估实验。这表明，自我监督学习技术可能会受益于在广泛的场景中使用渠道数量增加的CNN。
在这里插入图片描述
图6。分离网络扩展因子对表示大小的性能贡献。两者都是独立的，越大越好。分数是ImageNet上逻辑回归的准确性。黑色方块标记的模型也出现在表1中。

图7。使用所有数据以及数据子集评估最佳模型的性能。趋势很明显：加宽系数的增加会全面提高绩效。

4.7 用于训练线性模型的SGD需要很长时间才能收敛

在本节中，我们研究了SGD优化计划对下游任务中训练逻辑回归的重要性。我们说明了我们对轮换任务的线性评估的发现，其他人的行为相同，并在补充材料中提供。

我们训练线性评估模型，最小批量大小为2048，初始学习率为0.1，我们以10的因子衰减两次。我们的初步实验表明，第一次衰减的时间对最终精度有很大影响。因此，我们改变第一次衰变的时刻，在30、120或480个时期后应用它。在第一次衰退之后，我们额外训练了40个时期，在前20次衰退之后进行第二次衰退。

图8描述了验证分割的准确性是如何根据学习率首次衰减的时间进行的。令人惊讶的是，我们观察到非常长的训练（≈500个时期）会导致更高的准确性。因此，我们得出结论，SGD优化超参数发挥了重要作用，需要报告。
在这里插入图片描述
图8。利用SGD对旋转任务的表示进行训练的线性评估模型的下游任务精度曲线。第一次学习速率衰减在30、120和480个时期之后开始。我们观察到，即使在非常多的时期之后，下游任务的准确性也会提高。

五、结论

在这项工作中，我们从先前未探索的角度研究了自我监督的视觉表征学习。这样做，我们发现了多个重要的见解，即（1）在完全监督的环境中从建筑设计中汲取的教训不一定会转化为自我监督的环境；（2）与以前流行的架构（如AlexNet）相反，在残余架构中，最终的 $p re - l o g i t s$ 层始终会产生最佳性能；（3）神经网络的加宽因子对自我监督技术的性能有很大影响，（4）线性逻辑回归的SGD训练可能需要很长时间才能收敛。在我们的研究中，我们证明了现有自我监督技术的性能可以持续提高，这将导致自我监督和完全标签监督之间的差距减半。

然而，最重要的是，我们发现，不同方法之间的体系结构排名也不一致，不同体系结构之间的方法排名也不相同。这意味着，自我监督学习的借口任务不应单独考虑，而应与底层架构结合考虑。