监督学习、无监督学习、强化学习的区别

机器学习

目前机器学习主流分为三大类:监督学习,无监督学习和强化学习

举个例子,我们经常考试,试卷上的题目我们未必都做过,但是在复试的时候会刷很多题,通过这些题目我们学会了阶梯方法,在考试时面对陌生的题目也能做出来。

同样机器学习也是一个举一反三的过程,我们可以利用一些训练数据,使机器能够利用它们分析未知数据

通过计算的手段利用经验来改善系统自身的性能,其实它研究的问题就是学习算法,就是说我们把经验数据给它,然后它基于这些经验产生模型,下次遇到新情况时,模型就会给我们判断。

监督学习:

监督学习分为两大问题:“回归”和“分类”。

在回归问题中,我们会预测一个连续值比如说预测明天多少度,预测房价多少钱等等,而分类问题就是预测明天是什么天气,多云、下雨还是晴天,它与分类问题的区别就在于分类问题的结果是一个类别,预测结果不是对就是错,而回归问题是对真实值的一种逼近预测,你的预测值与真实值差距越小则越好,不会存在对错的概念,比如预测房价为999元,真实价格为1000元,我们认为这是一个比较好的回归分析。

监督学习其实就是根据已有的数据集,知道输入和输出结果之间的关系,根据这种关系训练得到一个最优的模型。监督学习中训练数据是有标签的。

监督学习的目的是通过学习许多有标签的样本,然后对新的数据做出预测。

无监督学习:

无监督学习中,我们基本不知道结果会是什么样,但可以通过聚类的方式从数据中提取一个特殊的结构。在无监督学习中给定的数据集是和监督学习中给定的数据集不一样。无监督学习的训练数据没有相关的标签。

无监督学习算法的目标是以某种方式组织数据,然后找出数据中存在的内在结构。这包括将数据进行聚类,或者找到更简单的方式处理复杂数据,使复杂数据看起来更简单。
 

强化学习:

强化学习是一种学习模型,它不会直接给你解决方案,需要通过试错的方式去寻找。AlphaGo用的就是强化学习。

强化学习不需要标签,你选择的行动越好,得到的反馈越多。所以你能通过执行这些行动看是输是赢来学习下围棋,不需要有人告诉你什么是好的行动什么是坏的行动。

 

参考:https://blog.csdn.net/sqc3375177/article/details/78679603

  • 20
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值