监督学习、无监督学习、自监督学习、半监督学习

最新推荐文章于 2024-06-15 09:59:21 发布

传说的胖达

最新推荐文章于 2024-06-15 09:59:21 发布

阅读量353

点赞数

文章标签：学习机器学习

本文链接：https://blog.csdn.net/weixin_43480889/article/details/131005225

版权

监督学习

监督学习是使用已知的正确答案的示例训练网络的过程。对于每一个训练数据，都有相对应的标签。通过训练数据和标签得到模型。
需要知道的是，在模型的训练过程中，每一个样本都有自己的标签，标签可以是文件夹的名称，或者是统一写在某个文件里。标签一般是经过人工标注生成的。常见的监督学习任务是分类任务和回归任务。标签的主要作用是用于损失计算，作为模型学习的动力。拿神经网络来说。输入的训练数据会经过前向传播得到预测结果，通过和标签比对得到误差。这个误差就是模型继续学习的动力，比对的方式就是损失函数。

无监督学习

通过学习训练数据的分布来生成模型，模型往往反映出训练数据的内在结构。无监督学习不需要任何标签，只要有训练数据即可。聚类算法最经典的无监督学习算法。以k-means算法为例，在聚类的过程中它只需要计算每一个质心和其他样本的距离，根据距离大小来判断它们所属的簇。这种算法不需要任何的标签，只要有数据计算距离即可。还有一些关联规则的算法、降维算法，例如Aprio算法、PCA算法，也是无监督的。
无监督算法的问题在于难以确定合适的评价指标去直接评估模型结果的好坏，例如聚类问题，对于聚类结果难以衡量，这也限制了聚类算法的使用面。

半监督学习

半监督学习是介于监督学习和无监督学习之间。如果一个数据集只有少量数据有标签，大部分数据没有标签的话就需要使用半监督学习算法。一般的思路是充分发挥那一部分有标签的数据的作用。比如生成辅助特征，辅助伪标签的生成过程。半监督学习中常用到伪标签。伪标签是模型生成的预测结果。利用这个预测结果重新训练模型，由于和真是标签存在着差距，所以称为伪标签。后面的帖子会介绍伪标签的生成。

自监督学习

自监督学习和无监督学习常常拿来比较。自监督学习不需要任何标签。但是自监督学习任务需要利用数据生成标签，利用生成的标签来继续训练模型，后面的帖子也会介绍自监督学习算法。自监督学习算法常用在对比学习中。

传说的胖达

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
监督学习、无监督学习、自监督学习、半监督学习

通过学习训练数据的分布来生成模型，模型往往反映出训练数据的内在结构。还有一些关联规则的算法、降维算法，例如Aprio算法、PCA算法，也是无监督的。需要知道的是，在模型的训练过程中，每一个样本都有自己的标签，标签可以是文件夹的名称，或者是统一写在某个文件里。但是自监督学习任务需要利用数据生成标签，利用生成的标签来继续训练模型，后面的帖子也会介绍自监督学习算法。无监督算法的问题在于难以确定合适的评价指标去直接评估模型结果的好坏，例如聚类问题，对于聚类结果难以衡量，这也限制了聚类算法的使用面。
复制链接

扫一扫