监督学习和无监督学习

最新推荐文章于 2024-01-13 12:30:00 发布

Namnan

最新推荐文章于 2024-01-13 12:30:00 发布

阅读量168

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/litternannan/article/details/109722454

版权

机器学习

数据挖掘
- 收集大量的数据并且采用机器学习算法来挖掘数据
无法手动编写一些自动化程序
- 如让直升机学会飞行
私人定制
- 自我学习，量身定制
监督学习
- 回归问题(regression）：回归是指我们的目标是一个连续值输出（有很多同一件货物的库存，预测在接下来的三个月里你能卖出多少[把要卖的货物的量看成连续的值]，预测房价）
  - 算法的目的是为了给出更多正确的答案
- 分类问题(classification)：预测离散值输出（写一个软件来判断你的很多个客户的账户，每一个账户是否被入侵或者破坏[设置预测数：如0表示没有被入侵，1表示已经被入侵了]）
  - 根据特征来分类
无监督学习

是一种学习机制，当你给算法大量的数据，要求它找出数据的类型结构

举个栗子

监督学习：给小朋友一本有课后答案的习题册，让小朋友自己做题，并自己校对答案；
无监督学习：比如参加一些开放性的竞赛（比如：数学建模竞赛），出题人只给出题目。参赛者，需要根据题目找出结构和规则，才能解题。（在没有老师的情况下，学生自学的过程。学生在学习的过程中，自己对知识进行归纳、总结。无监督学习中，类似分类和回归中的目标变量事先并不存在。要回答的问题是“从数据X中能发现什么”。）
半监督学习：家教，家教老师给学生讲一两道例题思路，然后给学生布置没有答案的课后习题，让学生课后自己完成。

定义以及相关的经典算法

监督学习是最常见的一种机器学习，它的训练数据是有标签的，训练目标是能够给新数据（测试数据）以正确的标签。
例如，想让AI知道什么是猫什么是狗，一开始我们先将一些猫的图片和狗的图片（带标签）一起进行训练，学习模型不断捕捉这些图片与标签间的联系进行自我调整和完善，然后我们给一些不带标签的新图片，让该AI来猜猜这些图片是猫还是狗。
经典的算法：支持向量机、线性判别、决策树、朴素贝叶斯
无监督学习常常被用于数据挖掘，用于在大量无标签数据中发现些什么。它的训练数据是无标签的，训练目标是能对观察值进行分类或者区分等。相对于监督学习，无监督学习使用的是没有标签的数据。机器会主动学习数据的特征，并将它们分为若干类别，相当于形成「未知的标签」。
非监督性学习是只给特征，没有给标签，就是给你一张理综试卷，是没有标准答案的，也就是没有参照是对还是错，但是我们还是可以根据这些问题之间的联系将物化生分开。
通常无监督学习是指不需要人为注释的样本中抽取信息。例如word2vec。
经典的算法：k-聚类、主成分分析等；
半监督学习介于两者之间。算法上，包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。隐藏在半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果。（此处大量忽略细节）
例如：很多实际问题中，只有少量的带有标记的数据，因为对数据进行标记的代价有时很高。比如找到照片并给照片上的猫标上标签（lable）很麻烦，但是猫的各种姿势的猫片网上一搜一大堆。那我们能不能手动标记一部分猫片，然后让AI学习训练，然后再剩下没标记的猫片上做实验呢？
经典算法：SVMs半监督支持向量机