强化学习第二版(翻译)第一章 导论 第三节 强化学习的要素 1.3 Elements of Reinforcement Learning

在代理和环境之外,强化学习系统一般有四个主要元素:一个策略,收益信号,价值函数,和一个可选的环境模型。

    策略定义了学习代理在给定时间内的行为方式。简单来说,政策是从环境到在这些状态下采取的行动的映射。它符合心理学中所谓的一系列刺激反应规则或关联。在某些情况下,策略可能是一个简单的函数或查找表,而在其他情况下,它可能涉及到大量的计算,如搜索过程。该策略是增强学习代理的核心,因为它本身就足以确定行为。一般来说,政策可能是随机的。

    收益信号定义了强化学习问题的目标。在每一个时间步,环境发给代理的单一信号称为收益。代理人的唯一目标是获得最大限度地长期收益。因此,收益信号定义了相对代理而言的好坏事件。在生物系统中,我们可能认为收益是类似于快乐或痛苦的经历。它们是代理所面临问题的直接精确的特征。收益信号是改变策略的主要依据;如果政策选择的行动之后是得到了低回报,那么策略可能会被改变,以便在未来的情况下选择其他行动。总之,收益信号可能是环境状态和所采取的行动的随机函数。

    虽然奖励信号表明什么是直接意义上的好东西,但价值函数指明了长期内什么是好的。粗略地说,一个状态的价值是从该状态开始在未来可以预期累积的收益总额。鉴于收益体现了状态的直接价值,价值反映了状态长期价值。例如,一个状态的直接收益可能很低,但因为其后续状态具有高额收益,因而也具有很高的价值。或者正相反。以人类作类比,回报有点像快乐(如果是高的)和痛苦(如果是低的),而价值则对应于特定状态下一种更为精确和远见的对于喜乐的判断。我们希望以这种类比表达价值函数的基本意义。

    从某种意义上说,收益是主要的,而价值作为回报的预测是次要的。没有收益就没有价值,估计价值的唯一目的是获得更多的收益。然而,在制定和评估决策时,我们最关心的是价值。行动选择是基于价值判断的。我们寻求带来最高价值的行动,而不是最高收益的,因为这些行动从长远来看对我们的回报最大。不幸的是,确定价值比确定收益要难得多。奖励基本上是由环境直接给出的,但价值必须通过代理人在其整个生命周期内所观察到的序列进行估计和重新估计。事实上,我们所考虑的几乎所有强化学习算法中最重要的组成部分是一种有效估计值的方法。价值评估的中心作用可以说是我们在过去几十年中学习强化学习的最重要的东西。

    一些强化学习系统具有第四个也是最后一个要素,既环境模型。这是对环境的模拟,或者说,它对环境的行为做出推论。例如,给定一个状态和动作,该模型可以预测生成的下一个状态和下一个奖励。模型用于规划,用于在实行动前对未来进行预判。使用模型和规划解决强化学习问题的方法被称为基于模型的方法,而不是简单的无模型方法。无模型方法几乎被看作是计划的反面,它通过试错学习。我们将在第8章同时学习这两种方法。现代强化学习已经从低级、尝试和错误学习跨越到高层次的、有计划的学习。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值