监督学习和无监督学习

机器学习

  • 数据挖掘

    • 收集大量的数据并且采用机器学习算法来挖掘数据
  • 无法手动编写一些自动化程序

    • 如让直升机学会飞行
  • 私人定制

    • 自我学习,量身定制

    监督学习

    • 回归问题(regression):回归是指我们的目标是一个连续值输出(有很多同一件货物的库存,预测在接下来的三个月里你能卖出多少[把要卖的货物的量看成连续的值],预测房价)
      • 算法的目的是为了给出更多正确的答案
    • 分类问题(classification):预测离散值输出(写一个软件来判断你的很多个客户的账户,每一个账户是否被入侵或者破坏[设置预测数:如0表示没有被入侵,1表示已经被入侵了])
      • 根据特征来分类

    无监督学习

是一种学习机制,当你给算法大量的数据,要求它找出数据的类型结构

举个栗子
  • 监督学习:给小朋友一本有课后答案的习题册,让小朋友自己做题,并自己校对答案;

  • 无监督学习:比如参加一些开放性的竞赛(比如:数学建模竞赛),出题人只给出题目。参赛者,需要根据题目找出结构和规则,才能解题。(在没有老师的情况下,学生自学的过程。学生在学习的过程中,自己对知识进行归纳、总结。无监督学习中,类似分类和回归中的目标变量事先并不存在。要回答的问题是“从数据X中能发现什么”。)

  • 半监督学习:家教,家教老师给学生讲一两道例题思路,然后给学生布置没有答案的课后习题,让学生课后自己完成。

定义以及相关的经典算法

  • 监督学习是最常见的一种机器学习,它的训练数据是有标签的,训练目标是能够给新数据(测试数据)以正确的标签。
    例如,想让AI知道什么是猫什么是狗,一开始我们先将一些猫的图片和狗的图片(带标签)一起进行训练,学习模型不断捕捉这些图片与标签间的联系进行自我调整和完善,然后我们给一些不带标签的新图片,让该AI来猜猜这些图片是猫还是狗。
    经典的算法:支持向量机、线性判别、决策树、朴素贝叶斯

  • 无监督学习常常被用于数据挖掘,用于在大量无标签数据中发现些什么。它的训练数据是无标签的,训练目标是能对观察值进行分类或者区分等。相对于监督学习,无监督学习使用的是没有标签的数据。机器会主动学习数据的特征,并将它们分为若干类别,相当于形成「未知的标签」。
    非监督性学习是只给特征,没有给标签,就是给你一张理综试卷,是没有标准答案的,也就是没有参照是对还是错,但是我们还是可以根据这些问题之间的联系将物化生分开。
    通常无监督学习是指不需要人为注释的样本中抽取信息。例如word2vec。
    经典的算法:k-聚类、主成分分析等;

  • 半监督学习介于两者之间。算法上,包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。(此处大量忽略细节)
    例如:很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高。比如找到照片并给照片上的猫标上标签(lable)很麻烦,但是猫的各种姿势的猫片网上一搜一大堆。那我们能不能手动标记一部分猫片,然后让AI学习训练,然后再剩下没标记的猫片上做实验呢?
    经典算法:SVMs半监督支持向量机

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值