强化学习的四个要素

        除了代理和环境之外,还可以识别强化学习系统的四个主要子元素:策略、奖励、价值函数,以及可选的环境模型。

一、策略

        策略定义了学习主体在给定时间的行为方式。粗略地说,政策是从感知的环境状态到在这些状态下要采取的行动的映射。它对应于心理学中所谓的一组刺激-反应规则或关联(前提是刺激包括可能来自动物内部的刺激)。在某些情况下,策略可能是一个简单的函数或查找表,而在其他情况下,它可能涉及广泛的计算,如搜索过程。策略是强化学习主体的核心,因为它本身就足以决定行为。一般来说,政策可能是随机的。

二、奖励

        奖励定义了强化学习问题的目标。在每个时间步长上,环境都会向强化学习代理发送一个单独的数字,即奖励。代理人的唯一目标是从长远来看,最大限度地提高其获得的总报酬。奖励因此定义了代理的好事件和坏事件。在一个生物系统中,我们可能会认为奖励类似于快乐或痛苦的体验。它们是代理人所面临问题的直接和决定性特征。在任何时候发送给代理的奖励取决于代理的当前操作和代理环境的当前状态。代理无法更改执行此操作的进程。主体影响奖励的唯一途径是通过其行为,这可以对奖励产生直接影响,也可以通过改变环境状态产生间接影响。在吃早餐的例子中,指导他的行为的强化学习代理在他吃早餐时可能会收到不同的奖励信号,这取决于他有多饿,他处于什么情绪,以及他身体的其他特征,这是他的内部强化学习代理环境的一部分。奖励是改变政策的主要依据。如果策略选择的某个操作之后是低奖励,则可能会更改策略以在未来的该情况下选择其他操作。一般来说,奖励可以是环境状态和所采取的行动的随机函数。

        奖励指示了什么是即时意义上的好,而价值函数则指定了什么是长期意义上的坏。粗略地说,一个州的价值是一个代理人从该州开始,在未来可以积累的奖励总额。奖励决定了环境状态的直接内在可取性,而价值则表明了在考虑到可能出现的状态以及这些状态中可用的奖励后,状态的长期可取性。例如,一个州可能总是产生较低的即时奖励,但仍然具有较高的价值,因为其他州经常紧随其后,产生较高的奖励。反之亦然。用人类的比喻,回报有点像快乐(如果高)和痛苦(如果低),而价值观则对应于对我们对环境处于特定状态的高兴或不高兴程度的更精细和更有远见的判断。通过这种方式表达,我们希望很清楚,值函数形式化了一个基本而熟悉的概念。

三、价值

        从某种意义上说,奖励是首要的,而价值观作为对奖励的预测是次要的。没有奖励就没有价值,估计价值的唯一目的就是获得更多的奖励。然而,在做出和评估决策时,我们最关心的是价值观。行动选择是基于价值判断做出的。我们寻求能带来最高价值状态的行动,而不是最高回报,因为从长远来看,这些行动为我们获得了最大的回报。在决策和规划中,我们最关心的是被称为价值的衍生量。不幸的是,确定价值比确定奖励要困难得多。奖励基本上是由环境直接给予的,但必须根据代理人在其整个生命周期中的观察序列来估计和重新估计价值。事实上,我们考虑的几乎所有强化学习算法中最重要的组成部分是一种有效估计值的方法。价值估计的核心作用可以说是我们在过去几十年中了解到的关于强化学习的最重要的东西。

四、环境

        一些强化学习系统的第四个也是最后一个元素是环境模型。这是一种模仿环境行为的东西,或者更普遍地说,允许对环境的行为进行推断。例如,给定一个状态和动作,该模型可能会预测由此产生的下一个状态以及下一个奖励。模型用于规划,我们指的是在实际经历之前通过考虑未来可能的情况来决定行动方案的任何方式。使用模型和规划来解决强化学习问题的方法被称为基于模型的方法,而不是更简单的无模型方法,这些方法是明确的试错学习者——被视为几乎与规划相反。我们探索了强化学习系统,这些系统同时通过试错进行学习,学习环境模型,并将该模型用于规划。现代强化学习涵盖了从低级的试错学习到高级的深思熟虑的计划。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Older司机渣渣威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值