自监督 & 无监督学习

自监督学习(Self-supervised Learning)和无监督学习(Unsupervised Learning)是机器学习中的两种方法,二者的核心区别在于数据的标注方式以及模型的目标。以下是详细解释:


1. 无监督学习

定义

无监督学习是一种机器学习方法,数据没有标签(label),模型通过分析数据的内在结构或分布规律来完成学习任务。

特点
  • 目标:发现数据的隐藏模式或分布规律,比如数据分布的聚类、降维或密度估计。
  • 输入:仅包含输入数据 XXX,没有标签 YYY。
  • 输出:生成数据的结构信息,如分类标签、数据分布的特征等。
典型应用
  • 聚类:将数据分为不同的组(如 K-Means、DBSCAN)。
  • 降维:降低数据的维度以便于可视化或后续分析(如 PCA、t-SNE)。
  • 生成模型:生成与输入数据分布相似的样本(如 GAN、VAE)。
示例
  1. 对一组图片进行聚类,把内容相似的图片分到同一类。
  2. 用降维方法将高维数据投影到二维空间,用于可视化分析。

2. 自监督学习

定义

自监督学习是一种特殊的监督学习,通过数据本身生成伪标签,将无标签数据转化为“有标签数据”,从而实现有监督的学习过程。

特点
  • 目标:学习数据的有效表征(representation),通过设计预任务(pretext task)来训练模型。
  • 输入:无标签数据 XXX,但通过数据本身生成伪标签 Y′Y'Y′。
  • 输出:通常是经过训练的特征提取模型或用于下游任务(如分类、目标检测)的特征表示。
典型应用
  • 特征学习:生成可迁移到其他任务的通用特征。
  • 对比学习:通过最大化正样本的相似性、最小化负样本的相似性(如 SimCLR、MoCo)。
  • 预任务设计:典型的预任务包括:
    • 预测数据的某些属性(如颜色还原、旋转角度预测)。
    • 恢复被破坏的部分数据(如 BERT 的 Masked Language Model)。
示例
  1. 给图片加噪声,让模型学习恢复原始图片(伪标签是去噪目标)。
  2. 将图像随机旋转一定角度,训练模型预测旋转角度(伪标签是旋转角度)。

3. 区别总结

特点无监督学习自监督学习
是否有标签没有标签无标签,但通过数据生成伪标签
目标发现数据的内在结构,进行聚类、降维等通过预任务学习特征表征,通常用于下游任务
任务设计无需设计任务,直接进行聚类、降维等需要设计预任务(如对比学习、属性预测、重构)
模型的应用通常直接用于数据分析学到的特征可迁移到其他任务
代表方法K-Means、PCA、GAN、VAESimCLR、MoCo、BYOL、BERT

4. 举例对比

1. 无监督学习示例
  • 数据集:1000 张无标签的猫狗图片。
  • 方法:使用 K-Means,将图像分为两组。
  • 结果:得到两类图片,可能对应猫和狗。
2. 自监督学习示例
  • 数据集:1000 张无标签的猫狗图片。
  • 方法:设计一个任务,比如遮住部分图片,让模型学习预测被遮住的部分。
  • 结果:训练得到一个特征提取器,可以迁移到有标签的猫狗分类任务中。

总结

  • 无监督学习更侧重于直接从数据中发现结构和模式,适合分析数据分布和聚类问题。
  • 自监督学习通过设计任务提取通用特征,是介于无监督和有监督之间的一种方法,目标是获得强大的特征表示以用于下游任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值