强化学习与动态规划、博弈论、有监督学习、无监督学习和进化算法的差异

强化学习的特点

在这里插入图片描述
强化学习中必备的三个要素是策略、收益信号和价值函数。

  1. 策略定义了智能体Agent在特定时间的行为方式(action);
  2. 收益信号定义了强化学习问题中的目标,主要根据环境(Environment)向智能体Agent返回的收益(reward)对策略进行调整;
  3. 不同于表示即时收益的收益信号,价值函数表示未来可以累积的总收益的期望

强化学习中并非必须的要素是环境模型,即给定一个状态 s t s_t st和动作 r t r_t rt就能够预测外部环境的下一个状态 s t + 1 s_{t+1} st+1和下一个收益 r t + 1 r_{t+1} rt+1的模型。根据是否具有环境模型这一要素,可以将强化学习划分为无模型方法和有模型方法。

根据大佬的定义,强化学习就是学习“做什么(即如何把当前的情境映射成动作)才能使得数值化的收益信号最大化”。简单来说,强化学习通过与环境的交互/试错不断学习、更新模型从而达到长期目标。

综上,强化学习试图解决的是决策优化问题,即在特定状态(state)下,采取何种⾏动⽅案(action),才能使收益最⼤(reward)。

强化学习 vs. 动态规划

序贯决策问题中的经典优化算法如动态规划,也可以用于根据当前的状态决定下一步的行动,例如经典的最短路问题。动态规划中需要输入整个过程中完整、明确的信息(最短路问题中包括哪些路径以及每一条路径的成本),即需要很多先验知识。然而,强化学习中则不需要这些先验知识

强化学习 vs. 博弈论

博弈论也是一个和强化学习类似的研究领域,例如,在一些棋类游戏中,我们可以通过博弈论计算出当前的最优动作。然而,经典的博弈论使用了“极大极小”的假设,即假设了对手会按照某种特定的方式来下棋,这一假设与现实情况并不相同,即使是高手也存在出错的可能性。强化学习中则没有使用类似的假设,更加符合真实的应用场景。

强化学习 vs. 有监督学习

有监督学习是当前机器学习领域中的常用模型,从外部监督者提供的带标注训练集中进行学习。每一个样本都是关于情境和标注的描述,标注中给出了针对当前情境,系统应该做出的正确动作,也可以看作是对当前情境进行分类的所属类别标签,从而能够让系统具备推断或者泛化能力,已经取得了成功。

有监督学习所要解决的是智能感知的问题,而强化学习所要解决的则是智能决策的问题。例如,在数字手写体识别中,有监督学习根据输入的大量带有标签的图片来识别数字,即学习”输⼊“长得像什么(特征),以及与该长相一一对应的是什么(标签)。然而,在atari游戏中,强化学习则不关心当前状态的图片是什么,而是只关心在当前状态下选择何种行动能够使得总收益最大。

强化学习和有监督学习的共同点是两者都需要⼤量的数据进⾏训练,但是两者所需要的数据类型不同。有监督学习需要的是多样化的标签数据,强化学习需要的是带有回报的交互数据

虽然强化学习和有监督学习之间存在差异,但是两种范式也可以融合。当状态空间是连续值,即状态空间的取值范围非常大时,例如在西洋双陆棋中大约有 1 0 20 10^{20} 1020种状态,我们便不可能再通过遍历这些状态,哪怕是遍历其中很小的一部分来对模型进行训练。考虑到神经网络能够为程序提供从经验中进行归纳的能力,因此在新的状态中,根据保存的过去遇到的相似状态的信息来选择动作,并由神经网络来做出最终决策便成为了解决这类问题的一种方案。在这一思路下,在强化学习中引入深度学习(有监督学习)便成为了一大研究的方向。

强化学习 vs. 无监督学习

既然强化学习不属于有监督学习,那么是否属于无监督学习呢?

无监督学习是一类典型的寻找未标注数据中隐含结构的过程,在这一过程中不依赖于每个样本对应的标注。例如,在聚类问题中,根据样本所具有的特征,可以将样本分为K个类,而在这一过程中并不涉及样本所对应的标注。

尽管强化学习也不依赖于每个样本的标注,但是强化学习的目的是最大化收益信号,而不是找出数据的隐含结构,即两种学习范式的学习目标不同。

强化学习 vs. 进化算法

在解决智能决策问题的方法,还存在着许多进化算法,如遗传算法、模拟退火等。这些算法采取大量静态策略,每个策略在扩展过的较长时间内与环境的一个独立实例进行交互,选择获取了最多收益的策略及其变种来产生下一代策略,然后继续循环更新。

和强化学习相比,进化算法中没有显示地计算价值函数,即忽略了智能体Agent与环境之间的交互细节。因此,进化算法只考虑这个策略的最终结果,例如在下棋情境下,只要这句比赛获胜就认为比赛中所有动作都有功劳,而与每一步具体动作的关键程度无关,而强化学习则可以评估策略对单个状态的回报,即考虑了交互过程中的诸多细节,会更加高效。

  • 2
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值