自监督学习的SimCLRv2框架

最新推荐文章于 2024-02-18 21:16:09 发布

ronghuaiyang

最新推荐文章于 2024-02-18 21:16:09 发布

阅读量853

点赞数 1

文章标签：网络机器学习人工智能深度学习计算机视觉

原文链接：https://pub.towardsai.net/the-simclrv2-framework-6de26606b7ef

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Lawrence Alaso Krukrubo

编译：ronghuaiyang

导读

一个巨大的，自监督学习的算法，性能更好。

自监督学习模型是强大的半监督学习

介绍：

计算机视觉长期存在的问题是，在使用大量未标记的数据进行训练时，模型很难在少数有标记的例子中学习。这个问题可能即将结束。

SimCLR框架

Google Research的研究人员，包括Geoffrey Hinton, Ting Chen，和其他一些人建立了SimCLR框架。SimCLR是一个简单的视觉表征对比学习框架。SimCLR首先学习未标记数据集上图像的通用表示，然后可以对少量标记图像进行微调，以实现对给定分类任务的良好性能。

通用表示是通过同时学习最大化同一幅图像的不同的视图之间的相似性，并最小化不同的图片的不同视图之间的相似性的方式得到的，后一种方法称为对比学习。更新神经网络的参数的使得相同图片之间的不同的视图的表示互相“吸引”，而不同图片的视图的表示则相互“排斥”。

后来，SimCLR使用全连接网络（MLP）计算非线性投影(投影头)图像的表示，它放大了不变的特征并最大化网络的能力来识别同一幅图像的不同的变换。

SimCLRv2框架里的新东西

在最近一篇题为“Big Self-Supervised Models are Strong Semi-Supervised Learners”的论文中，同样是谷歌的研究团队在ImageNet数据集上改进了最先进的(SOTA)，自监督模型的性能。这一壮举是通过使用SimCLRv2框架实现的，该框架由一个更大的自监督ResNet模型组成，构建在早期的SimCLR体系结构之上。因此，SimCLRv2是对SimCLR框架的改进。

关键思想：

BERT等自然语言处理模型的最新进展表明，在对较小的有标记数据集进行微调之前，先对大的无标记数据集进行预训练是可能获得良好结果的。然而，现有的图像数据自监督方法复杂且难以采用。SimCLRv2通过增强前面介绍的对比学习来简化和改进这个过程。

工作原理：

研究SimCLR和SimCLRv2这两篇论文，事实证明，这两种方法都使用第一种方法来自监督训练大量未标记的数据集。这有助于学习通用模型表示数据的同时最大化不同之间的协议转换的观点相同的图像和最小化之间的协议转换的观点不同的图像。

SimCLRv2将3个新的主要修改引入了SimCLR框架，这些包括：

应用随机裁剪加颜色失真产生最多的结果…

步骤1：

在自监督的预训练阶段，每个图像都通过随机裁剪、随机色彩失真和高斯模糊增强。大小是至关重要的，因此SimCLRv2使用更深但更窄的ResNet-152(3x)模型，Selective kernel (SK)。而SimCLR使用ResNet-50(4x)模型。

步骤2：

监督微调是使用少量已标记的样本来完成的。SimCLRv2使用更宽的非线性投影头(MLP)，合并到基编码器中。这个方法等同于从投影头的中间层进行微调，而不是像SimCLR那样从输入层进行微调。

步骤3：

自训练是使用同样的未标记的样本，但以特定任务的方式进行的。这个庞大的、经过微调的网络被用作教师，为训练学生网络注入伪标签。因此，教师可以蒸馏一个更小的学生网络，具有最小的准确性损失。

结果：

使用ResNet-50架构，SimCLRv2与SimCLR在ImageNet数据的1%标签分数上进行比较，达到73.9%的top-1精度，比SOTA高出53%。
在10%的标签比例下，SimCLRv2的top-1准确率达到77.5%，比SOTA高出18%。
对于较大的网络，SimCLRv2 *ResNet-152(3x+SK)*在1%和10%的标记分数上分别达到76.6%和80.9%的top1准确率，分别为22%和9%，优于SimCLR *ResNet-50(4x)*模型。