自监督学习(Self-supervised Learning)的深刻理解

自监督学习与监督学习、非监督学习的关系

样本特征在学习过程中至关重要。在简单的数据挖掘任务中,重要的数据特征是人工设计的。这些功能通常称为Hand-crafted features。在计算机视觉领域,这种类型的表示通常要求我们设计合适的函数以从图像或视频中提取所需的信息。但是,这些功能通常来自人类有关视觉任务中关键信息的经验,这导致手工制作的功能无法表示高级语义信息。例如,在早期工作中提出了各种视觉描述符,例如SIFT算子,HOG算子等等来表示有关对象边缘,纹理等的视觉信息。此外,由于设计函数的复杂度限制,这种类型的表示能力通常相对较低,并且提出新的hand-crafted features并非易事。

总而言之,hand-crafted features在早期视觉任务中取得了一些成功,但是随着问题的复杂性增加,它逐渐无法满足我们的需求。随着卷积神经网络的普及以及数据大小的指数增长,在完全监督的任务中,自动提取的表示形式逐渐取代了效率低下的hand-crafted features。在完全监督模型中,通过反向传播解决了以神经网络和监督损失函数为代表的全局优化问题。大量带注释的图像和视频数据集以及日益复杂的神经网络结构使诸如图像分类和对象检测之类的完全受监督的任务成为可能。之后,经过训练的模型的中间特征图通常包含与特定任务相关的语义有意义的信息,这些信息可以传递给类似的问题

但是,手动数据注释是监督学习中必不可少的步骤,这是耗时,费力且有噪声的。与有监督的方法不同,无监督的方法不依赖于人类注释,并且通常集中在数据良好表示(例如平滑度,稀疏性和分解)的预设先验上。无监督方法的经典类型是聚类方法,例如高斯混合模型,它将数据集分解为多个高斯分布式子数据集。然而,非监督学习学习由于预设先验的一般性较差而不太值得信赖,在某些数据集(例如非高斯子数据集)上选择将数据拟合为高斯分布可能是完全错误的。

自我监督方法可以看作是一种具有监督形式的特殊形式的非监督学习方法,这里的监督是由自我监督任务而不是预设先验知识诱发的。与完全不受监督的设置相比,自监督学习使用数据集本身的信息来构造伪标签。在表示学习方面,自我监督学习具有取代完全监督学习的巨大潜力。人类学习的本质告诉我们,大型注释数据集可能不是必需的,我们可以自发地从未标记的数据集中学习。更为现实的设置是使用少量带注释的数据进行自学习。这称为Few-shot Learning。

自监督学习的主要流派

在自监督学习中,如何自动获取伪标签至关重要。 根据伪标签的不同类型,我将自我监督的表示学习方法分为4种类型:基于数据生成(恢复)的任务,基于数据变换的任务,基于多模态的任务,基于辅助信息的任务。这里简单介绍第一类任务。事实上,所有的非监督方法都可以视作第一类自监督任务,在我做文献调研的过程中,我越发的感觉到事实上非监督学习和自监督学习根本不存在界限。

所有的非监督学习方法,例如数据降维(PCA:在减少数据维度的同时最大化的保留原有数据的方差),数据拟合分类(GMM: 最大化高斯混合分布的似然), 本质上都是为了得到一个良好的数据表示并希望其能够生成(恢复)原始输入。这也正是目前很多的自监督学习方法赖以使用的监督信息。基本上所有的encoder-decoder模型都是以数据恢复为训练损失

参考资料

[1] 本文主要参考资料来自https://zhuanlan.zhihu.com/p/125721565

 

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
自我监督学习是一种机器学习方法,通过对数据进行合理的预测任务,从中获得有用的表示。与传统的监督学习不同,自我监督学习不需要人工标注的标签来指导训练,而是利用数据自身的信息进行训练。 自我监督学习的基本思想是从未标记的数据中构造有意义的标签,然后将这些标签用作训练数据,以学习有用的特征表示。通过对输入数据进行某种形式的变换或遮挡,可以生成一对相关的样本。其中一个样本称为正样本,另一个则被视为负样本。例如,在图像领域中,可以通过将图像进行旋转、裁剪或遮挡等变换来生成正负样本对。模型的目标是通过学习从一个样本到另一个样本的映射,从而使得正样本对之间的相似度更高,负样本对之间的相似度更低。 自我监督学习在许多任务中都取得了很好的效果。例如,在自然语言处理任务中,可以通过遮挡句子中的某些单词或短语来生成正负样本对,然后通过学习从一个句子到另一个句子的映射来进行训练。在计算机视觉任务中,可以通过图像的旋转、裁剪、遮挡或色彩变换等方式来生成正负样本对。 自我监督学习的优点是不需要人工标注的标签,可以利用大量的未标记数据来进行训练,从而扩大训练数据的规模。此外,自我监督学习还可以通过学习到的特征表示来提高其他任务的性能,如分类、目标检测和语义分割等。 总之,自我监督学习是一种有效的无监督学习方法,通过构造有意义的预测任务,从未标记的数据中学习有用的特征表示。它在各种任务中都有广泛的应用,并具有很高的潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

刘大望

谢谢你请的咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值