Contrastive Multiview Coding

最新推荐文章于 2024-04-30 20:42:13 发布

Mr_tianyanxiaobai

最新推荐文章于 2024-04-30 20:42:13 发布

阅读量2.1k

点赞数 6

分类专栏：人工智能文章标签：深度学习

本文链接：https://blog.csdn.net/Mr_tianyanxiaobai/article/details/111308263

版权

本文介绍了Contrastive Multiview Coding（CMC）方法，它扩展了传统的对比学习，旨在最大化相同场景下不同视图之间的互信息。CMC通过对图像的多个视图进行学习，优化了表示能力。文章详细讨论了预测学习、对比学习的两视图及多视图情况，以及损失函数的实现。实验部分展示了CMC在不同颜色空间的图像上的应用，证明了多视图对提升表示性能的重要性。

摘要由CSDN通过智能技术生成

Introduction

codeing theory 的主要思想是：以自编码器或者生成器的形式完成一组表征学习，使得到的表征能够再无损的情况下，尽可能表示所有数据点的分布。原数据本身就是一种无损表征。但是这种表征一般存在大量无用信息（noise）。
对于CMC来说，由于每个像素包含的信息不同，那么可以认为每个像素的好坏程度不一。
better 像素在多层图像中都是有用的。
这篇文章将图像中具有相同 view 的像素映射到相近的点中，不同view的像素映射到不同的点中。
本文简化了 CPC 方法，删除了递归网络模块，并且将其应用于图像通道的任意组合。
CPC的核心思想：最大化数据的多个视图的表示之间的互信息。
好的表征方法：使后续解决问题的工作变得简单。
- 传统CPC主要学习两个views：past and future（或者称之为 space and time）
本文的贡献：
1. 主要将contrastive learning 泛化到 multiview 中，以最大化相同 scene 所对应的不同 view 之间的互相信息为目标。

将传统的 CPC 从 1 个 view 中进行自监督，拓展为从多个 view 中进行学习。并且证明，view 的个数越多，representation 的表现越好。
对 view 进行了不同于其他论文的定义。
重新设置了网络结构与配置参数。
本文证明了 contrastive objective 是优于 cross-view 预测的。

Method

Predictive Learning

如上：存在一个编码器 f 和一个解码器 g。如果用 $V_1$ 和 $V_2$ 分别表示数据集的两个 view，那么 $\hat{V_2}$ 就是输入 $V_1$ 通过编码器和解码器得到的预测值。
Predictive 的目标函数就是计算预测值 $\hat{V_2}$ 与真实值 $V_2$ 之间的距离，使这个距离最小。