Contrastive Multiview Coding

本文介绍了Contrastive Multiview Coding(CMC)方法,它扩展了传统的对比学习,旨在最大化相同场景下不同视图之间的互信息。CMC通过对图像的多个视图进行学习,优化了表示能力。文章详细讨论了预测学习、对比学习的两视图及多视图情况,以及损失函数的实现。实验部分展示了CMC在不同颜色空间的图像上的应用,证明了多视图对提升表示性能的重要性。
摘要由CSDN通过智能技术生成

Introduction

  • codeing theory 的主要思想是:以自编码器或者生成器的形式完成一组表征学习,使得到的表征能够再无损的情况下,尽可能表示所有数据点的分布。原数据本身就是一种无损表征。但是这种表征一般存在大量无用信息(noise)。
  • 对于CMC来说,由于每个像素包含的信息不同,那么可以认为每个像素的好坏程度不一。
  • better 像素在多层图像中都是有用的。
  • 这篇文章将图像中具有相同 view 的像素映射到相近的点中,不同view的像素映射到不同的点中。
  • 本文简化了 CPC 方法,删除了递归网络模块,并且将其应用于图像通道的任意组合
  • CPC的核心思想:最大化数据的多个视图的表示之间的互信息。
  • 好的表征方法:使后续解决问题的工作变得简单。
    • 传统CPC主要学习两个views:past and future(或者称之为 space and time)
  • 本文的贡献:
    1. 主要将contrastive learning 泛化到 multiview 中,以最大化相同 scene 所对应的不同 view 之间的互相信息为目标。
  1. 将传统的 CPC 从 1 个 view 中进行自监督,拓展为从多个 view 中进行学习。并且证明,view 的个数越多,representation 的表现越好。
  2. 对 view 进行了不同于其他论文的定义。
  3. 重新设置了网络结构与配置参数。
  4. 本文证明了 contrastive objective 是优于 cross-view 预测的。

Method

Predictive Learning

如上:存在一个编码器 f 和一个解码器 g。如果用 V 1 V_1 V1 V 2 V_2 V2 分别表示数据集的两个 view,那么 V 2 ^ \hat{V_2} V2^ 就是输入 V 1 V_1 V1 通过编码器和解码器得到的预测值。
Predictive 的目标函数就是 计算预测值 V 2 ^ \hat{V_2} V2^ 与真实值 V 2 V_2 V2 之间的距离,使这个距离最小。

Contrastive Learning with Two Views

  • 对比学习的目标就是学习一种嵌入,这种嵌入能够将不同分布的样本分开。
  • 假设两个数据集分别为 V 1 V_1 V1 V 2 V_2 V2
  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值