文章目录
Introduction
- codeing theory 的主要思想是:以自编码器或者生成器的形式完成一组表征学习,使得到的表征能够再无损的情况下,尽可能表示所有数据点的分布。原数据本身就是一种无损表征。但是这种表征一般存在大量无用信息(noise)。
- 对于CMC来说,由于每个像素包含的信息不同,那么可以认为每个像素的好坏程度不一。
- better 像素在多层图像中都是有用的。
- 这篇文章将图像中具有相同 view 的像素映射到相近的点中,不同view的像素映射到不同的点中。
- 本文简化了 CPC 方法,删除了递归网络模块,并且将其应用于图像通道的任意组合。
- CPC的核心思想:最大化数据的多个视图的表示之间的互信息。
- 好的表征方法:使后续解决问题的工作变得简单。
-
- 传统CPC主要学习两个views:past and future(或者称之为 space and time)
- 本文的贡献:
- 主要将contrastive learning 泛化到 multiview 中,以最大化相同 scene 所对应的不同 view 之间的互相信息为目标。
- 将传统的 CPC 从 1 个 view 中进行自监督,拓展为从多个 view 中进行学习。并且证明,view 的个数越多,representation 的表现越好。
- 对 view 进行了不同于其他论文的定义。
- 重新设置了网络结构与配置参数。
- 本文证明了 contrastive objective 是优于 cross-view 预测的。
Method
Predictive Learning
如上:存在一个编码器 f 和一个解码器 g。如果用 V 1 V_1 V1 和 V 2 V_2 V2 分别表示数据集的两个 view,那么 V 2 ^ \hat{V_2} V2^ 就是输入 V 1 V_1 V1 通过编码器和解码器得到的预测值。
Predictive 的目标函数就是 计算预测值 V 2 ^ \hat{V_2} V2^ 与真实值 V 2 V_2 V2 之间的距离,使这个距离最小。
Contrastive Learning with Two Views
- 对比学习的目标就是学习一种嵌入,这种嵌入能够将不同分布的样本分开。
- 假设两个数据集分别为 V 1 V_1 V1 和 V 2 V_2 V2