机器学习笔记10_Self-supervised Learning

本文是李宏毅机器学习笔记的第十节,重点讲解自监督学习技术,包括BERT、GPT的使用,以及Auto-Encoder在降维、去噪和异常检测中的应用。BERT模型可用于分类和序列预测任务,而Auto-Encoder通过无监督学习获取低维特征表示,用于降维和异常检测。异常检测不适用简单分类器,而适合使用如Auto-Encoder的方法进行无监督学习处理。
摘要由CSDN通过智能技术生成

本文是李宏毅机器学习的笔记,这是第十节,介绍了Bert、GPT、Auto-encoder、Anomaly Detection等自监督学习技术。

1. Bert & GPT


监督学习和自监督学习的区别如下所示:
监督学习由数据及其标签进行模型训练。而自监督学习只有数据进行模型训练,也就是说标签不是标注出来的,而是从输入数据中获取到的。

例如使用Masking Input技术进行训练,通过盖住输入数据中的一个字,然后然后模型预测盖住的字是什么。


可以用于下一句话预测

可以用于预训练,然后通过预训练好的模型,可以应用于各种下游任务。

GLUE是自然语言处理的评价指标,其数据规划,体量庞大,并且包含了很多子任务(列表所示),可以较全面的评价模型的性能。

下图是Bert的一些模型的GLUE分数。

How to use bert

bert用于分类任务:


bert用于序列输入序列输出类似的任务。


可以提取关键概念,然后实现问答系统。

自我监督学习是一种机器学习方法,通过对数据进行合理的预测任务,从中获得有用的表示。与传统的监督学习不同,自我监督学习不需要人工标注的标签来指导训练,而是利用数据自身的信息进行训练。 自我监督学习的基本思想是从未标记的数据中构造有意义的标签,然后将这些标签用作训练数据,以学习有用的特征表示。通过对输入数据进行某种形式的变换或遮挡,可以生成一对相关的样本。其中一个样本称为正样本,另一个则被视为负样本。例如,在图像领域中,可以通过将图像进行旋转、裁剪或遮挡等变换来生成正负样本对。模型的目标是通过学习从一个样本到另一个样本的映射,从而使得正样本对之间的相似度更高,负样本对之间的相似度更低。 自我监督学习在许多任务中都取得了很好的效果。例如,在自然语言处理任务中,可以通过遮挡句子中的某些单词或短语来生成正负样本对,然后通过学习从一个句子到另一个句子的映射来进行训练。在计算机视觉任务中,可以通过图像的旋转、裁剪、遮挡或色彩变换等方式来生成正负样本对。 自我监督学习的优点是不需要人工标注的标签,可以利用大量的未标记数据来进行训练,从而扩大训练数据的规模。此外,自我监督学习还可以通过学习到的特征表示来提高其他任务的性能,如分类、目标检测和语义分割等。 总之,自我监督学习是一种有效的无监督学习方法,通过构造有意义的预测任务,从未标记的数据中学习有用的特征表示。它在各种任务中都有广泛的应用,并具有很高的潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值