自监督学习文献综述

属于是个人的学习笔记,文中会贴出相关论文出处。


各种算法介绍

监督学习Supervised Learning

监督学习试图将输入变量映射到输出变量(如下图),这些模型是为特定任务创建的,包含大量人工标注的数据。这些数据被随机分为三类:训练数据、测试数据和验证数据。计算机视觉程序的成功与否取决于这些注释数据,而获取这些数据是一个耗时且昂贵的过程。

 监督学习和验证数据的操作过程

半监督学习Semi-supervised Learning

 半监督学习同时使用标记数据和非标记数据来执行特定任务。目标是结合监督和非监督学习技术的优点,可归类为无监督预处理。部分系统使用人工标注数据进行训练,然后系统使用无标注数据预测剩余部分,如下图所示。主要目标是利用无标记数据建立可靠的模型。但无标记数据只有在包含对标签预测有用的信息时才有用。

半监督学习

弱监督学习Weakly‐Supervised Learning

弱监督学习是指从有噪声或标记不全的数据中学习的过程,构建能在最少监督下运行的机器。分为三种类型:不完全监督(只有部分训练数据被标记,其余数据则未被标记)、不精确监督(只包含粗粒度的标签)和不准确监督(给定的标签并不反映事实真相

半弱监督学习Semi‐weak Supervised Learning

半监督学习和弱监督学习技术的结合。遵循 "学生-教师 "框架,首先使用有噪声的哈希标签训练一个弱监督数据集,称为教师模型。教师模型使用 ImageNet 标签数据集进一步完善,完善后的标签用于训练目标学生模型。

无监督学习Unsupervised Learning

无监督学习是指独立于人工标注的机器学习方法的总集。旨在发现未标记数据中的隐含模式,通过聚类来实现。机器的任务是根据相似性、模式和差异将未分类的数据分类,如下图所示。

无监督学习

强化学习Reinforcement Learning

强化学习是机器学习的一个子集,其中一个代理从试错反馈中学习(反馈可以是惩罚,也可以是奖励)。代理基于以往的经验,决定如何处理给定任务,如下图。在自监督模型中,RL通常起到正则化的作用,将监督层的注意力引向特定的奖励。

强化学习

增量学习Increment Learning

增量学习的目标是从新样本中学习新知识,并通过使用新数据在不遗忘先前任务的情况下持续解决新任务。反向传播会根据现有连续数据的损失调整参数权重,模型在以前学习的知识上的表现会受到影响。这被称为灾难性遗忘(CF),是增量学习的主要问题。

迁移学习Transfer Learning

迁移学习指的是知识从一个领域迁移到另一个领域。将数据量大的任务中训练有素的模型所包含的信息迁移到数据量小的客观任务中。自我监督学习(SSL)是最重要的学习算法之一。


自监督

介绍

有监督学习需要由人类手动生成注释标签,是一个耗时耗力的过程。而无监督学习是从无标签的数据中学习,可以利用非结构化和无标记数据,以低成本开发通用人工智能系统,它已成为最有前途的技术之一。SSL 算法可被视为半监督学习的一部分,SSL 也是无监督学习领域的一门学科。然而,在不同的社区,自监督学习和无监督学习之间的区别非常模糊。

SSL 与无监督学习的不同之处在于,它需要标签,但不需要人为标签。利用输入数据的一部分进行自我训练,以学习输入数据的另一部分,这也被称为预测学习或借口学习。SSL的一般原理如下图,基于某个自我生成的目标(即所谓的自我监督),大量未标注数据被用来训练模型。

SSL原理

自我监督学习的流程,包括两个主要阶段:前置任务和下游任务,前者采用监督学习来学习表征,标签由数据本身生成。学习完成后,模型会将之前学习到的表征应用到后续任务中。SSL算法框图如下。

SSL算法框图

前置任务和下游任务执行的各种任务如下图所示。

SSL 采用了两个主要概念:辅助借口任务和对比学习。在前置任务中,伪标签被用于表征,这些表征是根据数据集的属性自动生成的。然后将这些伪标签用于分类、检测和分割。辅助借口主要用于填补图像的缺失部分、将图像转换为灰度、预测隐藏部分以及其他许多任务。


前置任务学习框架Pretext Task Learning Framework

前置任务也称为次要任务,可让模型学习有用的特征表示信息,用于完成下游任务。在前置任务中,利用可见部分预测数据的隐藏部分。借口任务可应用于任何类型的数据,如图像、音频、视频等。借口任务实例如下图,这种任务允许机器通过直接从数据中获取监督来自动学习,而无需使用注释。

图像着色(上图 a 所示)是指将彩色图像转换为黑白图像的过程。每个像素的全彩信息都会被训练好的模型存储起来。这是学习视觉特征的前提。 

预测图像中丢失的补丁是一项可以预测图像补丁位置的前置任务。要预测图像中补丁的相对位置,需要对模型进行训练(如图b)。

估算旋转角度是一项需要实例判别的任务。预测图片旋转角度是识别旋转判别特征的一种简单而有效的方法。如果一张图片以任意角度(0、90、180 或 270 度)旋转并输入 CNN 模型,那么该网络模型需要在未标记数据集中的旋转图片对上进行预训练。网络必须了解图像中物体的位置、类型和姿势,才能估算出原始图像的旋转角度(如图c)。

拼图游戏 解决拼图游戏不仅需要了解单个补丁的知识,还需要了解同一图像中不同补丁之间的关系(如图d)。了解补丁的判别特征有助于解谜。预测补丁的正确位置没有捷径可走,因此要为每个补丁生成多个置换函数,以找到其正确位置。


下游任务Downstream Task

下游任务是确定模型目的的主要任务。下游的主要任务是在数据标签不足的情况下进行分类或对象检测、语义分割和动作识别。下游任务可以通过两种方式完成:微调或使用线性分类器。要实现良好的性能,下游任务中需要少量的数据标签。

图像分类

一幅图像可能包含多个不同类别的对象,但每幅图像只使用一个类别标签。用于图像分类的网络有很多,包括 AlexNet、ConvNet、ResNet、DenseNet、GoogLeNet、VGG 等。

物体检测是一项下游任务,用于识别物体的类别及其在图像中的相对位置。物体检测领域最流行的两个数据集是 MOSOCO 和 OpenImage。为了实现高性能,人们提出了许多 ConvNet 模型,如 CNN、R-CNN、Fast-RCNN、Fast YOLO 等。

语义分割

为图像中的每个像素分配语义标签的过程。这些网络包括 VGG、ResNet、AlexNet、CNN 和 FCN(全连接网络)。FCN 是语义分割的分水岭,因为它采用了全卷积网络来解决问题。

人的动作识别(HAR)

针对一组预定义的动作类别识别视频中人在做什么的任务。这项任务需要同时使用空间和时间特征。HAR 常用于评估使用自监督方法学习的视频特征的质量。


自监督学习类型

对比学习

对比法学习最大化语义相同输入之间的相似性,用于学习一种表征或特征空间,它可以吸引和排斥来自相似图像的表征。在对比学习中,训练数据中的一个样本被用作锚,其增强形式被标记为正样本,而训练批次中的其余训练数据被标记为负样本,如下图所示。

对比学习框架

数据增强是利用随机变换将图像映射到不同的视角,如调整大小、随机翻转、色彩失真、高斯模糊等,在不改变图像语义的情况下改变图像的视觉外观。

编码器用于从图像中提取特征。随着网络层数的增加,特征的质量也会提高。在对比学习中,使用了三种编码器:图像编码器、动量编码器和字典。为了预测未标记的数据,前置任务会从这些提取的特征中生成伪标签。

非对比学习

非对比学习技术只依赖于正样本对,这意味着训练数据只包含相关的表征,例如,数据可能包含同一只狗的彩色和黑白图片的两个版本,但不包含一些不相关的数据或负样本(如建筑物的图片)的图像。

非对比 SSL 模型使用了停止梯度和额外预测器操作,以获得更好的学习效果。如SimSiam模型可以证明。

生成、预测和对比方法比较

        生成式

        生成法学习重建或生成输入数据。自动编码器(AE)是这类方法中的一个突出例子,另一类方法,即生成对抗网络(GAN)。

        在高光谱图像(HSI)分析中,AE 要么用于预训练,要么成为常见下游任务的成分。遥感中基于 GAN 的自监督预训练方法并不多见,但有几项研究倾向于将此类方法整合到目标应用中。

        预测式

        预测法学习预测自我生成的标签。大多数生成式方法都是进行像素级重建或生成,而预测式自监督方法则是基于自动生成的标签

        预测 SSL 针对的是与执行像素级重构的生成方法相关的两个可能的缺点:1) 像素级损失函数可能会过度关注低级细节,而实际上这些细节与人类识别图像内容无关。2) 基于像素的重建通常不涉及像素到像素(长距离)的相关性,而这种相关性对图像理解可能非常重要。


自监督的应用

自 2018 年谷歌推出自然语言处理(NLP)模型以来,SSL 已成为研究人员的热门研究课题。

医疗保健领域,以及其他四个主要领域:像素到标量借口任务、像素到像素借口任务、对抗学习和对比学习。研究结果表明,SSL 有能力解决监督学习带来的问题。

自监督学习 SSL 已广泛应用于计算机视觉领域,如物体检测、图像分类、图分类、视觉问题解答等。自我监督学习方法正在迅速普及。自监督学习法的基本思想是开发一种能解决计算机视觉领域问题的模型。


SSL自监督基本术语

伪标签:伪标签是网络根据前置任务自动分配的标签,是用模型自身预测的标签作为“伪”标签来训练模型。

                     gangdayinwan伪标签过程

预训练:在大量无标签数据上进行初步训练,以学习数据的基础表示。

微调:在预训练完成后,将模型应用到特定任务上,并使用与该任务相关的有标签数据对模型进行进一步训练。这一阶段的训练通常使用较小的学习率。

自标注:模型使用自身生成的标签来进行训练,通常基于数据的某些特征。

对比学习:通过对比样本之间的相似性和差异性来学习特征表示。

生成模型:利用自监督方法生成数据的表示或生成新的数据样本。

微调模型:指的是在已有的预训练模型的基础上进行进一步训练,以适应特定的任务或数据集。步骤有:预训练>微调>调整参数>应用


自监督的利弊

  1. 绝大多数自监督预训练模型(如 ImageNet 数据集中的模型)都是在具有单一主要对象的图像上进行训练的。目前,大多数自监督视觉特征学习方法都侧重于学习单一模态的特征。
  2. 由于缺乏结构,在卫星图像和医学图像中寻找上下文极为困难。
  3. 创建一个有用的前置任务,让网络学习有意义的图像/文本,是自我监督学习最困难的方面。
  4. 随着数据集规模的扩大,系统的性能也会随之提高。因此,自监督模型依赖较大的数据集。
  5. 自监督学习方法在图像分类、物体检测、图像分割等困难的下游任务以及其他标签输入较少的任务中非常有效

自监督在遥感领域

在遥感领域,半监督学习已被长期研究和应用,例如高光谱图像(HSI)识别和处理;多光谱图像分割;以及合成孔径雷达(SAR)-光学数据融合

在遥感领域,无监督学习也被积极用于各种应用,例如场景分类 ;语义分割 ;变化检测;以及多传感器数据分析。

遥感领域机器学习的另一大挑战是标签噪声,在大规模数据标注过程中很难生成完美的标签。大量但有噪声的标签数据集会使模型产生偏差,而少量高质量的标签通常会导致过度拟合


自监督性能评估

通常会定义下游任务,将预训练模型 f 移植到特定应用中,如场景分类、语义分割和物体检测。迁移学习在这些高级视觉任务中的表现可以估算出模型 f 的通用性。

线性探测(或线性分类):固定所学模型 f(冻结编码器)的参数,并在生成的表示之上训练线性分类器 g。这种方法可以衡量预训练模型 f 生成的嵌入的线性可分性

K 近邻:指在特征空间中对输入测试图像 x 的 KNN 进行加权投票。这种方法是非参数的,可用于分类任务

 微调:使用预训练模型 f 的参数作为初始化,在下游任务中训练模型。不仅限于分类,定性可视化方法也可用于深入了解编码器 f 的自监督训练过程中学习到的特征。特征图可视化显示了 f 的隐藏层特征图,以分析 f 对输入 x 的空间关注。


遥感中自监督创新点

空间背景

图像包含丰富的空间信息,可用于设计自我监督的借口任务。

利用图像中随机排序的瓦片构建了一个拼图。然后对网络进行训练,以预测正确的拼图顺序。由于视觉模糊,网络不可能识别所有排列方式。为了限制排列组合的数量,我们采用了汉明距离来挑选具有显著差异的排列组合子集。

基于空间上下文的借口任务利用了输入图像的几何变换。其中,预测旋转角度和图像内绘是比较流行的方法。

同时从旋转借口和场景分类中学习,提炼出特定任务的特征。相对位置和内绘作为遥感场景分类的前置任务,图像内绘策略与生成式自监督方法也有密切关系,如下图。该研究增加了一个对比性自监督组件,称为实例辨别。在训练中加入了两个前置任务:旋转预测和对比预测,从而解决了少镜头场景分类问题。遥感技术中很少使用拼图,高空图像中的空间相关性可能并不占主导地位。

图像内绘

光谱背景

光谱信息是设计借口任务的另一个基础,其灵感来自计算机视觉中的图像着色。色彩空间的有效性源于根据人类感知进行的编码;两点之间的距离反映了相应颜色的视觉变化量。提取多个颜色通道并连接以提供全通道表示可作为前置任务进行系统分析。

事实上,光谱分辨率提高后的传感数据会反映出地球表面物理特性的细节。因此,设计与光谱波段相关的借口任务是一项需要科学谨慎对待的微妙工作。

时间脉络

在视频理解方面,与空间预测和频谱预测方法相似,时间借口任务可以通过两种方式设计:1) 更改帧的时间戳,让神经网络预测正确的序列;2) 屏蔽一个或多个帧,让网络预测缺失帧。SSL 中的缺失帧预测通常是从一小段视频录像中估算出未来的快照。

上下文的集成信息

将不同的借口任务收集在一起,结果表明结合自我监督任务通常会提高性能并导致更快的训练。

其他语义上下文

由于遥感数据和计算机视觉社区研究中研究的常见图像之间存在差异,因此设计特定于遥感的借口任务也有很大的潜力。预测不同的视图、重建输入等。但是,像地理定位本身这样的借口通常太简单而无法学习良好的表示形式,因此,它们经常被用作 SSL 的辅助任务。


论文来源

Self‑supervised Learning: A Succinct Review

Self-Supervised Learning in Remote Sensing A review

  • 16
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值