数据科学猫:强化学习的定义

进击的橘子猫正式改名上线啦!

我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat 

也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。

让我们进击起来吧!

简介

几句话概括版:

机器学习的算法可以分为以下三类:

  • 有监督学习(Supervised Learning):有预测目标Y,通过X预测Y
  • 无监督学习(Unsupervised Learning):没有Y,只通过X进行分析并识别模式
  • 强化学习(Reinforcement Learning):通过环境与奖励循环迭代优化出最合适的动作

 

机器学习的分类

机器学习中包含很多算法,这些算法所需要的数据以及解决的问题都不尽相同。一般来说,根据算法解决的问题类型,可以将机器学习算法分为以下三类:

  • 有监督学习(Supervised Learning)
  • 无监督学习(Unsupervised Learning)
  • 强化学习(Reinforcement Learning)

在有些文献中,还会引入半监督学习的概念,也就是介于有监督学习与无监督学习中。在本篇中,我们只基于传统的分类进行讲解。

从名字就能发现,有监督学习与无监督学习是个相对的概念,这里的监督,可以抽象的理解为模型的预测目标Y是否存在。在有监督学习中,预测目标是需要进行定义的,即Y是需要被加工出来的;而在无监督学习中,没有预测目标Y,算法只是探索挖掘数据之间的关系与模式,将数据进行聚类或重组。

强化学习相比前两种算法要特殊一些,它应用了最大化奖励的概念。强化学习适合环境不断变化的场景,这种算法根据环境的不同,不断更新并寻找最合适的行动方案,以最大化预先定义好的奖励。

下图简单为这三种机器学习类型提供了概览:

本篇主要介绍强化学习:

强化学习

不同于有监督学习与无监督学习,强化学习是一种动态优化的机器学习算法,它在理解一系列的限制条件与环境的基础下,通过学习一次次的行动带来的奖励与惩罚,最终提供最大化奖励的行动方案。

在强化学习中,会设置一个类似游戏的情景,算法会通过反复试验的方法来执行动作,并解决问题。对每一次试验与执行的动作,会设置对应的奖励,有时候也会有惩罚,算法最终的目标就是找到能够使奖励最大化的行动方案。

其实简单一点讲,强化学习就跟训练宠物一样,宠物就好比算法,它做出了一个动作之后,如果做的好,就给它奖励,做得越好,奖励越丰厚。在一次次的试验过后,机器就会找到获得最丰厚奖励的行动方案。一般,强化学习算法会先随机的进行一些试验与行动,在不断的学习与自我迭代中,最终找到最优解。

举个简单的例子,看下面的图,里面有一个小人,一个钻石,以及一堆陷阱。我们希望机器提供给我们一条最优的路径,能够使得小人用最少的步数得到钻石,并且避开所有的陷阱。这就是一个最最基本的强化学习问题。

在实际的项目与生活中,强化学习常常被应用于更加困难与复杂的环境中,其中一个非常普遍与经典的案例就是自动驾驶,在通常情况下,自动驾驶要求将安全放在首位,将行驶时间减至最少,同时尽量减少污染,为乘客提供舒适感并遵守法律规则,这些就是强化学习中的环境与惩罚与奖励。算法的目的就是提供最佳的行驶方案与路线,使得车辆安全并快捷的到达我们想要去的位置。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值