Momentum Contrast for Unsupervised Visual Representation Learning

Linaaa~

已于 2022-12-26 10:15:53 修改

阅读量180

点赞数

分类专栏：对比学习文章标签：算法 python

于 2022-12-26 10:13:18 首次发布

本文链接：https://blog.csdn.net/m0_51421744/article/details/128435863

版权

对比学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

MOCO

一、对比学习

对比学习简单描述
简单来描述一下对比学习：机器通过学习特征知道上面图一和图二是相似的，而图三和他们俩是不相似的。机器不需要知道具体的label是什么，经过网络之后得到图片对应的特征，我们希望通过对比学习能够把相似图片的特征拉近，不相似的远离。（像聚类一样）

如何得到相似的图片、不相似的图片？通过设置代理任务 — pretext task

pretext task

利用pretext task来定义图片是否相似的规则。pretext task一般来说都是人们不感兴趣的任务，比如instance discrimination（个体判别）。

二、算法流程

MOCO算法流程
MOCO将对比学习看做是一个字典查询（如图所示，x^query表示要查的，x_i^key表示字典里面有的key）任务，字典由两部分组成：队列（queue k_i）和移动平均的编码器（momentum encoder）。

队列是什么？momentum encoder是什么？

首先对比学习的动态字典需要具备两个特性：

大：为什么需要大？因为大就代表你的字典里面拥有的特征信息就越多，这样子就可能学习到真的能够把物体区分开来的特征
稳定性：就是要key和其他的所有负例需要是同一个编码器编码的，这样子才能保证公平性

不具备上面两个特征，机器就很容易学习到捷径。
那么MOCO是怎么实现大+一致性？

MOCO将字典和batch size彻底分离开（这里是对比memory bank），字典大小（存储特征的量）能够不再受限于batch size的大小就是因为使用了队列这种数据结构。（队列的大小为超参）每次将batch size大小的数据加入队列，最早的那批batch size数据出队，保证了运行速度（队列FIFO的性质）。
同时在每个时刻，队列中每个batch size大小的数据都是由不同的momentum encoder得来，为了保证一致性，使用动量更新编码器的方式：y_t = my_t-1+(1-m)x_t，即当前时刻的输出不完全取决于当前时刻的输入，还与上一时刻的状态有关。

1. 输入

MOCO的输入为一张图片经过不同的Data augmentation，得到x^query和x₀^key（为什么是x₀^key不是其他x_i^key？ 这个和MOCO的代码实现有关，在代码中是放在0位置的）。（MOCO的pretext task选择的是个体判别）

2. 编码

在MOCO中momentum encoder由encoder初始化赋值。encoder编码x^query，momentum encoder编码x_i^key，经过一轮梯度回传更新encoder后，encoder（即y_t = my_t-1+(1-m)x_t中的x_t）更新momentum encoder。

3. InfoNCE

$L_q = -\log\frac{exp(q\cdot k_+/\tau)}{\sum_{i=0}^K exp(q\cdot k_i/\tau)}$
首先形式上看来就是soft-max，但是soft-max里面的k是k个类别，对于个体判别任务来说，每张图片是一个类就是百万级的类别数量，那么soft-max就不能用了。那既然这么多类，就把他看做二分类问题，所有的负例（noise）看做一类，这就是NCE（noise contrastive estimation）：
$L_q = -\log\frac{exp(z_+)}{\sum_{i=0}^K exp(z_i)}$