Unsupervised Learning of Visual Features by Contrasting Cluster Assignments


前言

无监督图像表示显著地减少了与监督预训练的差距,特别是与对比学习方法的最新成就。这些对比方法通常在线工作,并且依赖于大量的显式成对特征比较,这在计算上是具有挑战性的。本文提出了一个在线算法SwAV,它利用了对比方法的优点,而不需要计算成对比较。具体地说,我们的方法在对同一图像的不同增强(或“视图”)产生的聚类分配之间实施一致性的同时对数据进行聚类,而不是像对比学习中那样直接比较特征。简单地说,我们使用“交换”预测机制,其中我们从一个视图的表示预测另一个视图的代码。我们的方法可以用大批量和小批量进行训练,并且可以扩展到无限数量的数据。与以往的对比方法相比,该方法不需要大的存储体和特殊的动量网络,具有更高的存储效率.此外,我们还提出了一种新的数据增强策略–多裁剪,该策略使用不同分辨率的混合视图代替两个全分辨率视图,而不增加内存或计算需求。


一、相关知识

1.在线学习和离线学习

离线学习

离线学习通常称为批学习,指对独立数据进行训练,将训练所得的模型用于预测任务中,将全部数据放入模型中进行计算,一旦出现需要变更的部分,只能通过再训练(retraining)的方式,离线学习也通常称为批学习,是指对独立数据进行训练,将训练所得的模型用于预测任务中。将全部救据放入模型中进行计算,一旦出现需要变更的部分,只能通过再训练(retraining)的方式,这将花费更长的时间,并且将数据全部存在服务器或者终端上非常占地方,对内存要求高。
正是由于这个问题,传统的离线学习不能直接用于在线学习场景:
· 离线需要多次传递训练数据,由于数据量的二次时间复杂度,导致处理效率很低。
· 离线需要分别在训练集和验证集上训练和选择,但在线学习不将训练与选择分离,不分割训练数据。
· 在批量学习设置中,通常假设数据是根据独立同分布设置的,但是在在线学习设置中,对训练数据的假设是宽松或几乎没有的。
离线学习的缺点:

  1. 模型训练过程低效。
  2. 训练过程不易拓展于大数据场景。
  3. 模型无法适应动态变化的环境。

在线学习

在线学习也称为增虽学习或活应性学习,是指对一定顺序下接收数据,每接收一个数据,模型会对它进行预测并对当前模型进行更新,然后处理下一个数据。这对模型的选择是一个完全不同,更复杂的问题。需要混合假设更新和对每轮新到达示例的假设评估。换句话说,你只能访问之前的数据,来回答当前的问题。

2.对比学习

对比学习是一种自监督学习方法,用于在没有标签的情况下,通过让模型学习哪些数据点相似或不同来学习数据集的一般特征,主要的目标是构造一个对比损失或者对比函数,使得正样例的score远远大于负样例的score。
对于一般的对比学习方法,正样本往往是从样本自身得到的,比如对该样本做增强(augmentation),而负样本则是从batch中随机挑选的样本。然而这种构造方法可能会面临两个问题:

为了加强模型的分辨能力,我们往往需要在一个batch中加入足够多的负样本,许多实验也表明大的batch size可以提高模型性能。然而由于一般的对比学习方法需要对batch中的样本进行两两比较,计算复杂度为 ,这就导致batch size会受到显存大小的约束,给对比学习的应用带来了障碍。
随机挑选负样本的方式可能会将一些实际上很相似的样本作为负样本(例如若锚定样本是一只狗的图片,而随机挑出来的负样本恰好也是一只狗的图片,那么即使两个样本实际上很相似,模型也会将其作为负样本),这样可能会影响模型的性能。
聚类对比学习就是想要解决上述的问题,顾名思义,该方法不直接做两两样本的对比,而是先对样本进行聚类,然后在类之间进行对比学习,由于样本的“类别”是通过无监督的聚类方法得到的,因此整个学习过程中并不需要样本标签,仍然还是在做自监督学习。通过聚类后再对比的操作,我们就可以大大减小对比的数量,降低计算复杂度,而且同一类下的不同样本也互为正样本,不会将相似的样本当做负样本。参考于存在的问题

数据增强

随机执行以下增强的任意组合:裁剪、调整大小、颜色失真、灰度。对批次中的每张图像执行两次此操作,以创建包含两个增强图像的一对正对(a positive pair)。

编码

将图像编码为潜在空间表示,学习图像的高阶特征,得到两个向量z。

损失最小化

使用某种方法量化两个向量间的相似性,可采用余弦相似度,它基于空间中两个向量之间的角度。当向量在空间中靠得越近(它们之间的夹角越小),它们就越相似。因此,如果将余弦(两个向量之间的角度) 作为度量,当角度接近 0 时,我们将获得高相似度,否则将获得低相似度。
还需要一个可以最小化的损失函数。一种选择是 NT-Xent(标准化温度标度交叉熵损失 Normalized Temperature-Scaled Cross-Entropy Loss)。

使用softmax计算两个增强图像相似的概率。
参考于对比学习详情

二、前言

无监督学习旨在不通过标签获得特征,现存很多方法建立在实例辨别任务的基础上,它将数据集或实例的每个图象及其变换视为单独的类。基于图像的某种不变性,产生能够在不同图像之间可区分的表示。最近基于实例区分的自监督方法依赖于对比度损失和图像变换。对比度损失通过直接比较图像特征来去除实例类的概念,图像变换定义在特征中编码的不变性。此工作改进了目标函数和变换。
基于聚类的方法在具有相似特征的图像组而不是单个图像之间进行区分[6]。聚类的目的是易于处理的,但是它不能很好地与数据集缩放,因为它需要遍历整个数据集以形成图像编码。在这项工作中,从一个视图的表示预测另一个视图的编码。通过在同一图像的多个视图之间交换分配(SwAV)来学习特征。这些特征和代码都是在线学习的,这使得我们的方法能够扩展到潜在的无限数量的数据。此外,SwAV适用于小批量和大批量,并且不需要大存储器组或动量编码器。
提出的方法:

  1. 提出可扩展的在线聚类损失。
  2. 引入muti-crop策略在没有计算或内存开销的情况下增加图像的视图数。

2.方法

在对比学习中引入聚类,首先需要解决的就是聚类稳定性的问题,即要避免所有样本都被分到同一类这种极端情况。因此这里SwAV就设计了一种聚类的方法,使得模型可以直接对batch中的样本进行稳定的聚类,然后按照聚类结果进行对比学习,帮助模型获得样本表征。
SwAV与传统对比学习的区别如下所示。为了帮助聚类,模型中引入了K个原型(prototype)变量,每个prototype可以理解为是一类样本的通用特征,一共有K类;模型会根据原型变量,online计算出batch中的样本属于某类的概率,然后再通过不同view的对比,令正样本对的属于同一类的概率更大(即相似的样本属于同一类的概率更大),以此来实现对于样本表征的学习。在这里插入图片描述


  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
封闭回路的无监督学习结构化表示 封闭回路的无监督学习结构化表示是一种机器学习方法,旨在通过建立闭环反馈以自动地学习数据之间的结构化表示。在无监督学习中,我们通常没有标签的辅助信息,因此要求模型能够从数据中自动发现隐藏的结构和模式。 封闭回路的无监督学习方法的关键思想是通过对模型输出和输入进行比较来进行训练。在这个闭环中,模型的输出被重新注入到模型的输入中,从而形成了一个持续的迭代过程。模型通过调整自身的参数来最小化输入和输出之间的差异,以此来改善所学到的表示。 使用封闭回路进行无监督学习的一个例子是自编码器。自编码器是一种神经网络模型,它的输入和输出都是相同的。模型的目标是通过学习如何将输入编码为一个低维的表示,并且能够从这个低维表示中重构出输入。在训练过程中,自编码器通过最小化输入和重构输出之间的差异来调整自身的参数。 封闭回路的无监督学习方法有许多优点。首先,由于无需标签,这种方法可以适用于大量未标记的数据。其次,学习到的结构化表示可以用于许多任务,如数据压缩、降噪、特征提取等。此外,通过引入封闭回路,模型可以在训练过程中不断自我纠正,从而改善表示的质量。 总之,封闭回路的无监督学习方法通过建立闭环反馈来自动地学习数据之间的结构化表示。该方法可以应用于无标签数据,并且通过迭代过程来不断改善所学到的表示。这种方法在很多任务中都具有广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值