对比学习（contrastive Learning）

博观而约取,厚积而薄发

已于 2024-01-04 10:37:43 修改

阅读量672

点赞数

分类专栏：深度学习文章标签：学习机器学习人工智能

于 2023-11-02 10:59:12 首次发布

本文链接：https://blog.csdn.net/mddCSDN/article/details/134157037

版权

深度学习专栏收录该内容

4 篇文章

订阅专栏

起源和定义

自监督学习又可以分为对比学习(contrastive learning)和生成学习(generative learning)两条主要的技术路线。

比学习的核心思想是将正样本和负样本在特征空间对比，从而学习样本的特征表示，使得样本与正样本的特征表示尽可能接近。正样本和负样本是使用代理任务(pretext task)来定义的．代理任务定义了样本之间的相似性，给定一个样本，与之相似的样本就是正样本，而不相似的样本就是负样本．

对比学习主要研究问题

１）如何构造正负例．

不同的数据增强方式可以让模型学习到不同的特征表示，不同的表征适用于不同的下游任务．选择合适的数据增强方式，构造合理的正负例，是能否成功提取对下游任务有用表征的关键．

２）负例的数量．

多少负例才能够让模型得到充分的学习？SimCLR提出１∶ ４０９６，许多实验也验证了负例越多效果越好．

３）损失函数．

对比学习的研究目标是要学习一个映射函数 f(x)，也就是 encoder 编码器，满足下式：

其中，s()是相似度计算函数，ｘ为输入样本， $x^{+}$ 为正例， $x^{-}$ 为负例．要使得输入样本与正例的相似度远大于负例，需要通过损失函数来达到．可以根据不同的任务来设计不同的损失函数．

损失函数是用来评估模型的预测值与真实值之间的差别．损失函数的设计，直接影响到模型的性能．对比学习可以看作是一种降维学习方法，通过学习一种映射关系，将样本通过映射函数映射到低维空间，使得同类样本距离拉近，不同类样本距离推远．

对比学习评价标准？

评价一个对比学习模型的好坏标准，一方面可以通过下游任务效果的好坏来衡量，另一方面也可以通过“对齐” 与 “均匀”两个指标来衡量．举个例子来说明这两个指标：超市里面的商品都是按类别摆放，如厨房用品、清洁用品、服饰等，同类商品摆放在一起，方便用户选购，这就是“对齐”；超市里面的货架要分布均匀，区域之间的距离都差不多，这就是 “均匀”．理想状态是每个类别均匀分布在一个超球体上，这样每个类别之间的距离都一样．正例之间保持紧密性，负例之间保持分散性．

[1]李希,刘喜平,李旺才等.对比学习研究综述[J].小型微型计算机系统,2023,44(04):787-797.DOI:10.20009/j.cnki.21-1106/TP.2022-0538.

对比学习研究现状

构造多视图样本 将同一幅图像在多个不同视图下的表达分别进行特征提取, 然后进行对比学习, 有利于提升模型的效果. 在视频分析中, 如对同一幅图像分别提取光流、语义分割、关键点等多视图特征, 然后进行对比学习, 提升了视频特征表达能力

图像语义增广是一种直接对图像中物体的语义进行修改的图像增广方法, 如将图像中的物体的颜色或角度进行改变.

[2]张重生,陈杰,李岐龙等.深度对比学习综述[J].自动化学报,2023,49(01):15-39.DOI:10.16383/j.aas.c220421.

instdisc

个体判别：假设模型的batchsize是256，有256张图片进入CNN网络，因此有256个正样本。负样本来自memory bank，每次从memory bank中随机采样出4096个负数样本，利用infoNCE loss去更新CNN的参数。本次更新结束后，会将CNN编码得到的向量替换掉memory bank中原有的存储。

NCELoss:对比学习损失—InfoNCE理论理解_黑洞是不黑的博客-CSDN博客