深度学习(自监督:SimSiam)——Exploring Simple Siamese Representation Learning

最新推荐文章于 2024-04-22 21:47:18 发布

菜到怀疑人生

最新推荐文章于 2024-04-22 21:47:18 发布

阅读量7.3k

点赞数 7

分类专栏：深度学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/117926764

版权

深度学习专栏收录该内容

58 篇文章 31 订阅

订阅专栏

文章目录

前言
SimSiam简述
实验

前言

该文章是何凯明组发表于CVPR2021上的文章，目前已获得最佳论文提名，主要解决自监督对比学习中的奔溃解问题。奔溃解即不论什么输入，特征提取器输出的特征向量都相同。

本文将简单介绍SimSiam，记录其中较有意思的实验结果。

作者并没有解释为什么SimSiam可以避免奔溃解，但文章的确非常出彩

SimSiam简述

在这里插入图片描述
上图即SimSiam的整体结构，具体而言

对输入图像x施加数据增强，得到 $x_1$ 、 $x_2$
将 $x_1$ 、 $x_2$ 输入到同一个特征提取器中，并经过一个projection MLP处理得到 $z_1$ 、 $z_2$
$z_1$ 经过prediction MLP处理，得到 $p_1$

对比学习的loss为
在这里插入图片描述
反向传播时， $\frac{z_2}{||z_2||_2}$ 会被看成为常数，只有 $\frac{p_1}{||p_1||_2}$ 会产生梯度，可以看到奔溃解是存在于解空间中的。

作者有对上述优化过程做一个解释，假设我们的损失函数为
在这里插入图片描述
$F_\theta(x)$ 为神经网络， $T (x)$ 表示对数据x做数据增强， $\eta_x$ 可看成是一个待估参数，上述式子的待估参数为 $\theta$ 、 $\eta_x$ ，loss最小化的具体优化过程类似于坐标下降法，如下所示

$\eta^{t-1}$ 表示t-1次优化后， $\eta$ 的值， $\theta^t$ 同理，首先将 $\eta^{t-1}$ 看成常数，求得 $\theta^{t}$ ，在所有 $\theta$ 取值中， $L(\theta^t,\eta^{t-1})$ 取值将为最小，同理可求得 $\eta^t$ ，其实就是坐标下降法。 $\eta^t$ 的数学表达式可以通过下式求得
$\frac{\partial L(\theta,\eta)}{\partial \eta}=-E_T[2(F_{\theta^t}(T(x))-\eta_x)]=0$
解得
在这里插入图片描述

通过蒙特卡洛近似，我们以一个样本做近似可得
在这里插入图片描述

$T^{'} (x)$ 表示对x施加数据增强，和 $T (x)$ 是一样的，这么写有助于后续的数学表达式书写，将上述式子代入式7中可得
在这里插入图片描述

上述式子可以看成对一张图片 $x$ 施加两次数据增强，得到 $T (x) 、 T^{'} (x)$ ，经过神经网络处理后，在特征空间做L2距离，反向传播时， $F_{\theta^t}(T'(x))$ 看成为常数。当 $F_{\theta^t}(T'(x))、F_{\theta}(T(x))$ 经过L2归一化后，上述式子可以与SimSiam的loss做一个等价。

因此，SimSiam可以看成是一个含有两个待估参数集的优化问题。为了验证该假设，作者做了一组实验，如下所示
在这里插入图片描述
k-step表示先存储 $k$ 个 $F_{\theta^t}(T'(x))$ ，将其看成常数，对式11中的 $F_{\theta}(T(x))$ 进行k次梯度更新得到 $\theta^{t+k}$ ，类似于优化式7.0。接着优化 $\eta$ ，即将 $F_{\theta}(T(x))$ 看成常数，对式11中的 $F_{\theta^{t+k}}(T'(x))$ 进行梯度更新，类似于优化式8.0。可以看到，优化结果非常好，证明了作者的假设。

上述过程中，我故意省去了prediction MLP，由于式10.0是对式9.0的粗略估计，因此作者假设prediction MLP弥补了粗略估计带来的误差，并通过实验进行了验证，在此不做记录。

算法伪代码如下
在这里插入图片描述

实验

此处不记录验证SimSiam可以避免奔溃解的有关实验，只记录一些有助于实践的实验结果

SimSiam是不需要负例的对比学习算法，因此其对batch size的大小是不敏感的，如下所示
在这里插入图片描述

除此之外，作者验证了prediction MLP的作用，如下所示，可见prediction MLP对于SimSiam的影响非常大
在这里插入图片描述
除此之外，作者还探究了在prediction MLP和projection MLP的输出层添加BN的影响，如下所示，BN层对SimSiam的影响也如此显著（捂脸），看起来对比学习对于一些细节操作异常敏感。

菜到怀疑人生

关注

7
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
深度学习(自监督:SimSiam)——Exploring Simple Siamese Representation Learning

文章目录前言SimSiam简述实验前言该文章是何凯明组发表于CVPR2021上的文章，目前已获得最佳论文提名，主要解决自监督对比学习中的奔溃解问题。奔溃解即不论什么输入，特征提取器输出的特征向量都相同。本文将简单介绍SimSiam，记录其中较有意思的实验结果。作者并没有解释为什么SimSiam可以避免奔溃解，但文章的确非常出彩。SimSiam简述上图即SimSiam的整体结构，具体而言对输入图像x施加数据增强，得到x1x_1x1、x2x_2x2将x1x_1x1、x2x_2x2输
复制链接

扫一扫