小全读论文《Momentum Contrast for Unsupervised Visual Representation Learning》
这是何恺明大大的新作,当然论文上满满都是赫赫有名的大佬们,Ross Girshick、Saining Xie等。这篇文章是做图片无监督问题的,自己虽然不是做无监督问题的,冲着一众大佬的光环,忍不住仔细钻研了一把,嘻嘻嘻(*_*),恺明小迷弟石锤了。 全文均根据自己理解整理的,如有纰漏欢迎指出。
1.浅谈无监督问题
1.1 什么是无监督问题?
有监督问题就是利用监督信息(也就是标注信息)去设计和训练模型,无监督问题就是不需要依赖于监督信息也能去设计和训练相应的模型,达成某些目的,如本文关注的图片无监督问题,就是在只给了你海量的图片的前提下而没有任何图片标签信息,依然能训练得到一个很好的特征提取器。他的目的是这个特征提取器能放之四海而皆准,就是你以后来了一个新任务,不需要设计新的feature了,直接用我的这个特征提取器就ok了,连finetune都不需要了。
1.2 图片无监督问题有什么意义?
我们可以参考一个无监督问题的应用,如nlp里面的word2vector算法,如GloVe和Bert,像cv很多领域都直接利用了这些算法,作为直接的external knowledge来使用。因此,图片无监督问题其实也希望能达到像Bert这种效果,我能有一个通用的图片特征模型,这个模型可以用于任何的图片提取feature,特别是,对于某些领域,如医疗,数据特别少,仅仅基于这些稀少的数据是很难提取到很好的feature的,但是通过这种通用的图片特征模型就能提取到较好的特征。
1.3 图片无监督问题的难点是什么呢?
为什么NLP领域能出现像Bert这样子的无监督模型,但是为什么目前CV领域却没有出现像Bert这样的模型?文章也指出了这个问题的难点,这里我也适当加入了自己的理解:
- NLP是以单词为输入的,而CV是以图片为输入(这个“输入”的意思是作为模型的输入)。单词是相对离散化的输入,他的输入可以采取one-hot的形式,可变的程度不高。而图片的输入维度太高,而且相对来说连续化一些,可变的程度高得多,如一个20x20的输入图片,就可以有无数种的可能,而一个单词最后也就n种变化(n是总词库的大小,在不同的位置取1而形成不同的one-hot)
- NLP的信息更加偏向于结构化,而CV不具备这种结构化信息。这种结构化信息可以举例来看,如NLP中很多模型是以句子为单位去设计模型的,一个句子往往是根据语法结构以及单词的词性构建的,主谓宾,宾语从句,状语从句和动词,名词等,而语法结构往往是有限的。而CV中的图片是很难有一致的结构化信息,如图片的变换太多,图片中物体的相互组合、物体的相互遮挡、物体的环境因素等,模型需要控制和适应的点会很多。
2.MoCo(本文方法)
在理解本文之前,首先先简要介绍一下图片无监督的方法,好理解论文老是提到的几个词(dictionary,key)的含义,我一开始看文章的时候,刚看到这几个词,真是云里雾里,绕有一种众人皆醒我独醉的感觉。
2.1 前备知识
我们都知道,有监督问题就是基于预测结果和监督信息设计一个损失函数loss function,但是无监督问题应该怎么设计loss function呢?图片无监督问题的一个经典的方法是contrastive learning里的instance discrimination method(因为论文提到了,我就称之为经典方法吧啊哈哈哈哈哈),他的设计原理是:
从一张图片中进行采样(crop),如果当前采样图片与另外一张图片来源于同一张图片,那么该图片就被为当前图片的一个正样本,否则则认为是负样本
所以当前采样图片我们称之为query,同时我们会将一系列的图片保存起来,形成一个图片集,并集合成一个dictionary,这些图片的特征作为这个dictionary的key(文章也没说dictionary的value是什么,我理解为是每个key对应的图片id吧,这其实不碍于理解整篇文章)
基于上述的设计原理,可以设计一个loss函数(InfoNCE):
L q = − l o g e x p ( q ⋅ k + / τ ) ∑ i = 0 K e x p ( q ⋅ k i / τ ) L_q=-log \frac{exp(q \cdot k_+/\tau)}{\sum^K_{i=0}exp(q \cdot k_i/\tau)} Lq=−log∑i=0Kexp(

介绍Momentum Contrast(MoCo)无监督视觉表示学习方法,解决图片无监督问题,构建large和consistent的dictionary,通过Dictionary as a queue和Momentum update两大改进,实现在多个下游任务上的优秀表现。
最低0.47元/天 解锁文章
2770





