# [Contrastive Learning] Fast-MoCo

最新推荐文章于 2024-09-15 15:29:29 发布

不稳定程序制造机

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量358

点赞数

分类专栏：对比学习 CV算法文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/tj21z/article/details/125959448

版权

CV算法同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

对比学习

3 篇文章 0 订阅

订阅专栏

论文链接：Arxiv
期刊/会议：ECCV 2022
是否有code: Code

关键词

对比学习

问题简述

Motiviation

这是篇卖“问题”的文章。作者发现使用目前的对比学习方法，想要得到理想的效果往往需要很长的训练时间(比方说MoCo需要训练800个epoch)。作者认为，这主要是因为这类“two-image-one-pair”的对比学习范式，对于数据的利用率并不高。简单来说，就是一个sample的经过增广后的两个view（文中的“two-image”就是two-view）只能用作一个正例pair，这在训练过程中对于数据的利用十分低效。基于这个假设，很自然就能想到“two-image-multi-pair”，来提升训练效率：

那如何用two-image中生成多个正例pair呢？作者给出一个方法就是“combinatorial patches”的方法。大体就是一个image可以切分成多个patch，再把切出来的多个patch进行一定程度的排列组合，就可以构成多个“组合Patch”，然后这些组合Patches与另一个image(同sample的不同view)就可以构成多个pair啦；
通过"two-image-multi-pair"这个特点，Fast-MoCo最大优势就是训练起来非常快，原始MoCo v3需要800个epoch才能达到的效果，Fast-MoCo只需要100个epoch就可以了。

方法介绍

下图是Fast-MoCo的大致流程，可以看出Fast-MoCo与MoCo的范式是非常接近的，不然也不会叫做FastMoCo嘛。其最主要的改动是将且仅将MoCo中的 online分支路 的数据流从基于image改为了基于Patch，其他地方基本没有改变。FastMoCo的online分支路对于数据的处理可以大致分为三个步骤：

Divide Step
Encode Step
Combine Step

Divide Step：

非常简单，就是将整张image切分为彼此不交叠的 $\times m$ 个 Patch,记作 $\{x_{p}|p \in \{1,...,m^2\}\}$ ， $p\in\{1,...,m^2\}$ 代表这些Patch的序号;
作者通过实验证明， $m = 2$ 的值会比较好；

Encode Step：

对于Divide Step生成出来的 $\{x_{p}|p \in \{1,...,m^2\}\}$ ，分别独自送到encode来提取特征 $\{v_{p}|p \in \{1,...,m^2\}\}$ ；

Combine Step：

在这一环节，会从 $\{v_{p}|p \in \{1,...,m^2\}\}$ 取出一部分来进行组合：

从集合 $p\in\{1,...,m^2\}$ 中随机选出n个构成一个子集，记作 $p_n \in p$ ；
组合后的特征 $c$ 则可以通过 $\frac{1}{n}\sum_{p \in\ p_n}v_p$ 来计算得到；这里作者根据实验效果与计算量平衡方面的考量，决定选直接平均的方式来生成 $c$ ，除此之外， $s u m$ 和 $co n c a t$ 以及 $ma x$ 也都可以考虑；

通过简单的排列组合， $\{v_{p}|p \in \{1,...,m^2\}\}$ 可以生成 $C_{m^2}^n$ 种组合特征 $c$ ，他们共同构成组合特征集合 $\textbf{c}=\{c_i|i \in \{1,...,C_{m^2}^n\}\}$ 。

之后 $\textbf{c}=\{c_i|i \in \{1,...,C_{m^2}^n\}\}$ 种的每个 $c$ 都在去经过projector和predictor处理，去和target分支路(与MoCo v3完全一致，还是使用基于image的数据流，没有以上Divide->Encode->Combine步骤)一起计算InfoNCE损失。相当于从原来的一个正例pair变为了现在的 $C_{m^2}^n$ 个pair，大大提升数据利用效率；

Combine Step 为什么work

笔者理解：Online分支路生成的组合特征 $c$ 仅包含了整个image的一部分，相比之下，Target分支路优于没有使用Divide-Encode-Combine过程，其生成的特征是包含整个image的。因此，将这两部分特征拉近会是一个更加难的学习任务，也可理解为 $c$ 天然就是 hard-positive；

与其他Patch-Wised对比学习范式对比

那么作者对比了哪些其他的基于Patch的对比学习范式呢？
Fig 7.
结果自然是Fast-MoCo效果最佳啦：
在这里插入图片描述
作者对比了这些组合，总结了两条规律：

Divide Step是不能被Sample(random cropping)替换的，后者肯定会带来性能的下降；
Combine-Step要进行在Encode Step之后；

总结

卖问题的，是一篇有一定启发性的文章

Patch-Wise的引入挺巧妙，并不是为了用而用；笔者一直认为对比学习过程中，目前进行正负对比的"粒度"还是过于粗糙了，这无疑会限制对比学习的上限，这篇文章从这个角度上，听具有启发性的。
缺点：
本文达到的效果只能说差强人意吧。减少了学习时间，但是并没有涨点or泛化性提升。笔者认为降低学习时间在工业界和学术界的意义都比较有限；