自监督学习

乐事layz

已于 2024-07-10 11:37:40 修改

阅读量277

点赞数 6

分类专栏：深度学习文章标签：学习人工智能深度学习机器学习迁移学习 AIGC agi

于 2024-07-10 11:37:06 首次发布

本文链接：https://blog.csdn.net/qq_45809323/article/details/140317294

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一·什么是自监督学习

在机器学习范畴中，可以分为有监督学习，无监督学习，有监督学习顾名思义就是有“监督者”–标签来“监督”学习的好坏；无监督学习，顾名思义就是没有“监督者”–标签，来“监督”学习的好坏，所以有监督学习和无监督学习最大的区别就是有无“监督者”–标签。
Yann LeCun最初在2019年4月在FaceBook发帖第一次提出了自监督学习这个词，自监督学习无需要标签，主要利用代理任务（pretext）来从大规模的无监督数据中找到自身的监督数据。
举例来讲，比如我们对一篇文章来做情感分析如下图可以将文章划分为段落A与段落B，将段落A作为输入，输入网络后得到一个输出Y我们需要做的是尽量使Y与B更加接近。
在这里插入图片描述
由于自监督学习不需要标签数据，因此也可以将其看作是一种无监督学习。

二·自监督学习得到的表征的有效性

·对于有监督学习任务的应用，首先在大规模的有标签的数据集上训练一个范化能力比较强的预训练模型，然后再将预训练模型运用到一个特定领域的下游任务中，将预训练模型中的参数迁移至下游任务然后再对模型微调训练，得到一个对下游任务适应性较强的模型。
·对于自监督学习，与有监督学习类似，首先在一个无标签的大规模数据集上部署一个代理任务（pretext）得到预训练模型，然后再将预训练模型迁移到下游任务中，微调训练。
从自监督任务的有效性评测中可以看出，如何找到一个合适的pretext显得尤为重要。

三·自监督学习如何进行表征学习

自监督学习的学习方法可以分为三类：（1）基于上下文的学习（2）基于时许的学习（3）基于对比学习。

四·自监督学习的好处

1️⃣降低数据获取成本

自监督学习减少了对大量人工标注数据的需求，从而降低了训练成本和时间。对于一些领域（如医学影像、自然语言处理等），标注数据的获取非常昂贵且耗时，自监督学习可以显著减轻这一负担。未标注的数据通常比标注数据容易获得且成本低廉。

2️⃣提高模型鲁棒性

自监督学习通过多样化的预任务，使模型能够捕捉数据中的多种模式和特征。这种多样性训练有助于提高模型的鲁棒性，使其在应对不同任务和数据集时表现更为稳定。

3️⃣自监督学习可以利用数据中的内在结构和模式，提供先验知识给模型

比如，在图像处理中，模型可以通过拼图、颜色恢复等任务学习到图像的空间关系和颜色分布，这些知识可以在下游任务（如图像分类、目标检测等）中发挥重要作用。

4️⃣ 显著缩短训练时间并提升模型性能

监督学习通常用于预训练模型，这些预训练的模型可以作为基础模型，通过迁移学习的方法，快速适应特定任务。这种方式在实际应用中非常高效，可以显著缩短训练时间并提升模型性能。

乐事layz

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
自监督学习

在机器学习范畴中，可以分为有监督学习，无监督学习，有监督学习顾名思义就是有“监督者”–标签来“监督”学习的好坏；无监督学习，顾名思义就是没有“监督者”–标签，来“监督”学习的好坏，所以有监督学习和无监督学习最大的区别就是有无“监督者”–标签。Yann LeCun最初在2019年4月在FaceBook发帖第一次提出了自监督学习这个词，自监督学习无需要标签，主要利用代理任务（pretext）来从大规模的无监督数据中找到自身的监督数据。
复制链接

扫一扫