对比学习论文阅读 BYOL Bootstrap Y our Own LatentA New Approach to Self-Supervised Learning

唐风绸繆

已于 2024-04-24 13:15:59 修改

阅读量384

点赞数 4

分类专栏：论文阅读笔记文章标签：学习论文阅读对比学习 BYOL

于 2024-04-24 11:41:00 首次发布

本文链接：https://blog.csdn.net/qq_45738761/article/details/138154487

版权

论文阅读笔记专栏收录该内容

17 篇文章 0 订阅

订阅专栏

对比学习论文阅读：

对比学习论文阅读 simCLR A Simple Framework for Contrastive Learning of Visual Representations-CSDN博客

对比学习论文阅读 MOCO Momentum Contrast for Unsupervised Visual Representation Learning-CSDN博客

对比学习论文阅读 BYOL Bootstrap Y our Own LatentA New Approach to Self-Supervised Learning-CSDN博客

对比学习论文阅读 SimSiam Exploring Simple Siamese Representation Learning-CSDN博客

这篇论文要先从自监督训练的崩塌（折叠表示）问题开始说起。我们知道现在大部分的自监督训练都是通过约束同一张图的不同形态之间的特征差异性来实现特征提取，不同形态一般通过指定的数据增强实现。那么如果只是这么做的话（只有正样本对），网络很容易对所有输入都输出一个固定值，这样特征差异性就是0，完美符合优化目标，但这不是我们想要的，这就是训练崩塌了。因此一个自然的想法是我们不仅仅要拉近相同数据的特征距离，也要拉远不同数据的特征距离，换句话说就是不仅要有正样本对，也要有负样本对，这确实解决了训练崩塌的问题，但是也带来了一个新的问题，那就是对负样本对的数量要求较大，因为只有这样才能训练出足够强的特征提取能力，因此我们可以看到这方面的代表作如SimCLR系列都需要较大的batch size才能有较好的效果。

学习图像特征是CV的重点，人们通常通过代理任务（pretext tasks）实现特征学习。先进的对比学习方法通常通过减少同一图像的不同增强视图表示之间的距离(“正对”)，并增加不同图像的增强视图表示之间的距离(“负对”)来训练。此方法需要仔细处理负对，依靠大批量或定制的策略来使用负对。此外，此方法性能的性能严重依赖于图像增强的选择。BYOL对于数据增强方法的选择更具有鲁棒性，batchsize减小的影响也更小。

这篇论文的motivation（动机）来源于一个有趣的实验，首先有一个网络参数随机初始化且固定的target network（目标网络），target network的top1准确率只有1.4%，target network输出feature作为另一个叫online network（在线网络）的训练目标，等这个online network训练好之后，online network的top1准确率可以达到18.8%，这就非常有意思了，假如将target network替换为效果更好的网络参数（比如此时的online network），然后再迭代一次，也就是再训练一轮online network，去学习新的target network输出的feature，那效果应该是不断上升的，类似左脚踩右脚不断上升一样。BYOL基本上就是这样做的，并且取得了非常好的效果。（BYOL的双网络中，目标网络的参数不是固定了，而是慢动平均的，借鉴moco）

BYOL依赖于两个神经网络，被称为在线网络和目标网络，它们相互作用并相互学习。从图像的增强视图，我们训练在线网络来预测同一图像在不同增强视图下的目标网络表示。同时，我们用在线网络的slow-moving average（慢动平均值）来更新目标网络。当前对比学习方法都依赖负样本，而BYOL不用负样本且优秀：ImageNet上用res50，top1准确率达74％。

：stop gradient（sg）代表停止梯度，意味着梯度不会在目标模型中反向传播，而是以慢动平均值更新网络

在线网络以目标网络为目标，做反向传播；在线网络的参数通过慢动平均影响目标网络，二者相互作用

训练完成后，网络只保留编码器q中的resnet参数

为什么BYOL不会有训练崩塌问题，论文中其实也提到了主要是两方面的原因：1、online network和target network并不是由一个损失函数来共同优化，也就是target network采用了slow-moving average的方式（，τ取0.99效果优）进行参数更新。2、online network和target network的网络结构并不是完全一样的，online network多了一个predictor结构。