深度学习(自监督:BYOL)——Bootstrap Your Own Latent A New Approach to Self-Supervised Learning

最新推荐文章于 2025-03-06 16:15:00 发布

菜到怀疑人生

最新推荐文章于 2025-03-06 16:15:00 发布

阅读量5k

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/117897881

版权

58 篇文章

订阅专栏

前言

该文章为deepmind团队出品，目前挂在arxiv上，并没有查到相应的发表记录。

该文章主要解决对比学习中，只存在正例时出现的模型奔溃解问题，即不论输入是什么，模型的输出都是一个常数。

即使只有正例，BYOL仍然达到了SOTA水平，如下图：
在这里插入图片描述
这表明在对比学习中，负例不一定需要存在。个人认为负例可以避免奔溃解，但是对于高性能的自监督模型而言不是必须的，例如BYOL。

同时相比于使用负例的对比学习算法(例如SimCLR)，不使用负例的对比学习算法通常对于batch size大小不敏感，如下图所示
在这里插入图片描述
个人认为对于使用负例的对比学习算法而言，batch_size会影响对比学习中的负例个数，从而影响模型性能，不是很清楚为什么会有这种性质。

本文将对BYOL做一个简答介绍，同时记录一些个人思考。

在这里插入图片描述
上图为BYOL的模型结构，BYOL存在target和online两个网络，具体处理流程为

对输入数据x施加不同的数据增强，得到 $t 、 t^{'}$
将 $t$ 输入到online网络的特征提取器 $f_\theta$ 中提取特征，得到特征向量 $y_\theta$ ，将 $t^{'}$ 输入到target网络的特征提取器 $f_\xi$ 中提取特征，得到特征向量 $y_\xi'$
$y_\theta$ 经过一个MLP网络 $g_\theta$ 处理，得到 $z_\theta$ ， $y_\xi'$ 经过一个MLP网络 $g_\xi$ 处理，得到 $z_\xi'$
$z_\theta$ 经过一个MLP网络 $q_\theta$ 处理，得到 $q_\theta(z_\theta)$ ，与 $z_\xi'$ 计算对比学习loss