小全读论文《Momentum Contrast for Unsupervised Visual Representation Learning》(MoCo)

最新推荐文章于 2025-10-08 15:14:18 发布

原创

最新推荐文章于 2025-10-08 15:14:18 发布 · 置顶 · 7.3k 阅读

67 ·

CC 4.0 BY-SA版权

文章标签：

#Momentum Contrast for Unsupervised #MoCo #无监督 #何恺明

介绍Momentum Contrast(MoCo)无监督视觉表示学习方法，解决图片无监督问题，构建large和consistent的dictionary，通过Dictionary as a queue和Momentum update两大改进，实现在多个下游任务上的优秀表现。

小全读论文《Momentum Contrast for Unsupervised Visual Representation Learning》

1.浅谈无监督问题
2.MoCo（本文方法）
3.实验
4.总结

这是何恺明大大的新作，当然论文上满满都是赫赫有名的大佬们，Ross Girshick、Saining Xie等。这篇文章是做图片无监督问题的，自己虽然不是做无监督问题的，冲着一众大佬的光环，忍不住仔细钻研了一把，嘻嘻嘻（*_*），恺明小迷弟石锤了。 全文均根据自己理解整理的，如有纰漏欢迎指出。

1.浅谈无监督问题

1.1 什么是无监督问题？

有监督问题就是利用监督信息（也就是标注信息）去设计和训练模型，无监督问题就是不需要依赖于监督信息也能去设计和训练相应的模型，达成某些目的，如本文关注的图片无监督问题，就是在只给了你海量的图片的前提下而没有任何图片标签信息，依然能训练得到一个很好的特征提取器。他的目的是这个特征提取器能放之四海而皆准，就是你以后来了一个新任务，不需要设计新的feature了，直接用我的这个特征提取器就ok了，连finetune都不需要了。

1.2 图片无监督问题有什么意义？

我们可以参考一个无监督问题的应用，如nlp里面的word2vector算法，如GloVe和Bert，像cv很多领域都直接利用了这些算法，作为直接的external knowledge来使用。因此，图片无监督问题其实也希望能达到像Bert这种效果，我能有一个通用的图片特征模型，这个模型可以用于任何的图片提取feature，特别是，对于某些领域，如医疗，数据特别少，仅仅基于这些稀少的数据是很难提取到很好的feature的，但是通过这种通用的图片特征模型就能提取到较好的特征。

1.3 图片无监督问题的难点是什么呢？

为什么NLP领域能出现像Bert这样子的无监督模型，但是为什么目前CV领域却没有出现像Bert这样的模型？文章也指出了这个问题的难点，这里我也适当加入了自己的理解：

NLP是以单词为输入的，而CV是以图片为输入（这个“输入”的意思是作为模型的输入）。单词是相对离散化的输入，他的输入可以采取one-hot的形式，可变的程度不高。而图片的输入维度太高，而且相对来说连续化一些，可变的程度高得多，如一个20x20的输入图片，就可以有无数种的可能，而一个单词最后也就n种变化（n是总词库的大小，在不同的位置取1而形成不同的one-hot）
NLP的信息更加偏向于结构化，而CV不具备这种结构化信息。这种结构化信息可以举例来看，如NLP中很多模型是以句子为单位去设计模型的，一个句子往往是根据语法结构以及单词的词性构建的，主谓宾，宾语从句，状语从句和动词，名词等，而语法结构往往是有限的。而CV中的图片是很难有一致的结构化信息，如图片的变换太多，图片中物体的相互组合、物体的相互遮挡、物体的环境因素等，模型需要控制和适应的点会很多。

2.MoCo（本文方法）

在理解本文之前，首先先简要介绍一下图片无监督的方法，好理解论文老是提到的几个词（dictionary，key）的含义，我一开始看文章的时候，刚看到这几个词，真是云里雾里，绕有一种众人皆醒我独醉的感觉。

2.1 前备知识

我们都知道，有监督问题就是基于预测结果和监督信息设计一个损失函数loss function，但是无监督问题应该怎么设计loss function呢？图片无监督问题的一个经典的方法是contrastive learning里的instance discrimination method（因为论文提到了，我就称之为经典方法吧啊哈哈哈哈哈），他的设计原理是：
从一张图片中进行采样（crop），如果当前采样图片与另外一张图片来源于同一张图片，那么该图片就被为当前图片的一个正样本，否则则认为是负样本
所以当前采样图片我们称之为query，同时我们会将一系列的图片保存起来，形成一个图片集，并集合成一个dictionary，这些图片的特征作为这个dictionary的key（文章也没说dictionary的value是什么，我理解为是每个key对应的图片id吧，这其实不碍于理解整篇文章）
基于上述的设计原理，可以设计一个loss函数（InfoNCE）：
$L_q=-log \frac{exp(q \cdot k_+/\tau)}{\sum^K_{i=0}exp(q \cdot k_i/\tau)}$

最低0.47元/天解锁文章

6 条评论

hzc10197 2022.05.24
写得很好，有助于加深我的理解，谢谢博主

幻想家的猫。 2021.08.11
写的很不错，赞一个[face]emoji:071.png[/face]，而且对重点的内容加粗加红了(比某些水博客强的多)
- FatMigo回复幻想家的猫。 2021.08.12
  多谢支持！

MathewMathers 2020.03.27
关于一致性，想和博主交流一下我的看法，我的看法也不一定准确。一致性是和memory bank的方法做对比的。memory bank中，sampled keys和encoder的参数相关。同一个sample，在不同的阶段进入字典中，对应的key值是有差别的，所以memory bank的一致性较差。而moco的办法，每一次迭代encoder的参数变化很小，所以keys的变化也会较小，一致性较高。一致性高的好处可能是防止encoder参数更新反而对训练造成影响，同时保证能够用到这个字典中的特征。
- 充实而又快乐回复FatMigo 2021.02.24
  感谢博主的分享~
- FatMigo回复MathewMathers 2020.03.27
  [reply]MathewMathers[/reply]哇，看来这位同学是无监督的资深研究者。我和你的理解大体上也差不多，像你说到，一致性高的好处在于防止encoder参数剧烈带来的负面影响。我对这里的负面影响的理解是，当我在优化的过程中，如果key的encoder剧烈变化，key的特征也随着发生较打变化。query的encoder也在训练初期是在剧烈变化，而query的特征在softmax的分子，key在分母，当softmax的分子和分母均有巨大变化的时候，对于无监督的优化可能不是那么友好。因此MoCo限制了key的encoder的剧烈变化，相当于分母项的扰动少了，有助于query的encoder的更新。（MoCo就好像是教两个小孩上课，让一个小孩玩着，先专心教另外一个，玩着的小孩慢慢跟着另一个小孩学）（如有理解不恰当的，有望指正）