数据科学猫：强化学习的定义_进击的橘子猫-CSDN博客

本文链接：https://blog.csdn.net/Orange_Spotty_Cat/article/details/116302568

进击的橘子猫正式改名上线啦！

我的CSDN主页：https://blog.csdn.net/Orange_Spotty_Cat

也欢迎大家搜索微信公众号“进击的橘子猫”，我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。

让我们进击起来吧！

简介

几句话概括版：

机器学习的算法可以分为以下三类：

有监督学习（Supervised Learning）：有预测目标Y，通过X预测Y
无监督学习（Unsupervised Learning）：没有Y，只通过X进行分析并识别模式
强化学习（Reinforcement Learning）：通过环境与奖励循环迭代优化出最合适的动作

机器学习的分类

机器学习中包含很多算法，这些算法所需要的数据以及解决的问题都不尽相同。一般来说，根据算法解决的问题类型，可以将机器学习算法分为以下三类：

有监督学习（Supervised Learning）
无监督学习（Unsupervised Learning）
强化学习（Reinforcement Learning）

在有些文献中，还会引入半监督学习的概念，也就是介于有监督学习与无监督学习中。在本篇中，我们只基于传统的分类进行讲解。

从名字就能发现，有监督学习与无监督学习是个相对的概念，这里的监督，可以抽象的理解为模型的预测目标Y是否存在。在有监督学习中，预测目标是需要进行定义的，即Y是需要被加工出来的；而在无监督学习中，没有预测目标Y，算法只是探索挖掘数据之间的关系与模式，将数据进行聚类或重组。

强化学习相比前两种算法要特殊一些，它应用了最大化奖励的概念。强化学习适合环境不断变化的场景，这种算法根据环境的不同，不断更新并寻找最合适的行动方案，以最大化预先定义好的奖励。

下图简单为这三种机器学习类型提供了概览：

本篇主要介绍强化学习：

强化学习

不同于有监督学习与无监督学习，强化学习是一种动态优化的机器学习算法，它在理解一系列的限制条件与环境的基础下，通过学习一次次的行动带来的奖励与惩罚，最终提供最大化奖励的行动方案。

在强化学习中，会设置一个类似游戏的情景，算法会通过反复试验的方法来执行动作，并解决问题。对每一次试验与执行的动作，会设置对应的奖励，有时候也会有惩罚，算法最终的目标就是找到能够使奖励最大化的行动方案。

其实简单一点讲，强化学习就跟训练宠物一样，宠物就好比算法，它做出了一个动作之后，如果做的好，就给它奖励，做得越好，奖励越丰厚。在一次次的试验过后，机器就会找到获得最丰厚奖励的行动方案。一般，强化学习算法会先随机的进行一些试验与行动，在不断的学习与自我迭代中，最终找到最优解。

举个简单的例子，看下面的图，里面有一个小人，一个钻石，以及一堆陷阱。我们希望机器提供给我们一条最优的路径，能够使得小人用最少的步数得到钻石，并且避开所有的陷阱。这就是一个最最基本的强化学习问题。

在实际的项目与生活中，强化学习常常被应用于更加困难与复杂的环境中，其中一个非常普遍与经典的案例就是自动驾驶，在通常情况下，自动驾驶要求将安全放在首位，将行驶时间减至最少，同时尽量减少污染，为乘客提供舒适感并遵守法律规则，这些就是强化学习中的环境与惩罚与奖励。算法的目的就是提供最佳的行驶方案与路线，使得车辆安全并快捷的到达我们想要去的位置。