视觉对比学习的核心:对比两图像是不是同一图像的不同变换。
CVPR 2018
论文标题:
Unsupervised Feature Learning via Non-Parametric Instance Discrimination
论文链接:
https://arxiv.org/abs/1805.01978
代码链接:
https://github.com/zhirongw/lemniscate.pytorch
此篇文章的核心思想可用下图两个简短步骤说明。
CPC
论文标题:
Representation Learning with Contrastive Predictive Coding
论文链接:
https://arxiv.org/abs/1807.03748
后面提到的第 5 篇文章(CPC V2)对这个文章的总结很好:CPC 通过训练网络根据过去信息预测未来观测来学习特征表示。当用于图像处理时,CPC 通过根据当前图像块上方的图像块们来预测它的表示。
那么怎么预测未来观测了,作者认为,未来预测应根据前面历史上下文来预测,而为了保证未来预测的准确性,就最大化历史上下文与未来预测的关联关系,那么怎么最大化了?就是将未来分为:1)和历史上下文无关的未来;2)和历史上下文有关的未来。
2.1 基本概念
▲ KL计算公式与定义
Mutual Information:两个随机变量的联合分布 P(x,c) 与他们两个边际分布 P(x)P(c) 相乘形成的分布的 KL 距离是为两个随机变量的互信息。也就是两个分布的相似性。如果 KL 越小,说明联合分布就等于边际分布相乘,说明两个变量之间彼此独立,不能相互提供信息。
▲ 文中公式1的计算由来
所以文中提到需要强化历史上下文 c,与未来状态分布之间的互信息,也就是强化两者之间的相关性,保证我根据上下文 C 预测得到的 x 是准确的。
那么历史上下文怎么来了?
还是从下面第 5 篇文章讲解出发,见下图。
CVPR 2020
论文标题:
Momentum Contrast for Unsupervised Visual Representation Learning
<