深度学习(自监督:SimCLR)——A Simple Framework for Contrastive Learning of Visual Representations

最新推荐文章于 2025-01-01 21:45:00 发布

菜到怀疑人生

最新推荐文章于 2025-01-01 21:45:00 发布

阅读量2.4k

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/117906514

版权

深度学习专栏收录该内容

58 篇文章

订阅专栏

本文深入探讨SimCLR，一个由Hinton和Google在2020ICML上发表的自监督学习方法。实验表明，数据增强组合如random cropping与random color distortion对对比学习至关重要，且更大的模型与更大的batch size能显著提升性能。非线性投影头改善了特征质量，而长时间训练和大batch size对对比学习尤为有利。此外，研究还发现特征提取器的输出比MLP层更适合线性分类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

该文章是Hinton和Google发表在2020 ICML上的一篇自监督文章。

代码地址： https://github.com/google-research/simclr

其实看文章的时候就闻到味了，一定是Google家的作品，实验数据非常详细，替我们探索了对比学习所具有的一些特性。

本文将对SimCLR做一个简述，并且简单记录其中比较有意思的实验。

SimCLR简述

在这里插入图片描述
上图为SimCLR的模型结构，具体流程为

对一个输入图像 $x$ 施加两种不同的数据增强，得到两张图片 $\tilde{x_i}$ 、 $\tilde{x_j}$
将两张图片输入到一个CNN网络 $f (x)$ 提取特征，得到 $h_i$ 、 $h_j$ 两个feature vector
两个feature vector经过一个MLP网络 $g (x)$ 处理，得到 $z_i$ 、 $z_j$

假设batch size大小为 $N$ ，经过数据增强，可以得到 $2 N$ 张图像，SimCLR在对比学习时，需要正负例。

对图片 $x$ 施加两种不同的数据增强，得到 $\tilde{x_i}$ 、 $\tilde{x_j}$ ，经过CNN、MLP处理后得到 $z_i$ 、 $z_j$ ， $z_i$ 与 $z_j$ 构成一个正例对， $z_i$ 与batch size中其他图像（包括数据增强后的图像）的feature vector组成负例对，因此一张图片将存在1个正例对， $2 N - 2$ 个负例对。一张图片的损失函数为
在这里插入图片描述
$sim(z_i,z_j)$ 表示计算两个向量的余弦相似度， $T$ 为超参数， $2 N$ 张图像的损失函数之和求平均，得到最终的损失函数，其实就是在进行 $2 N - 1$ 的分类