QUANT[17]强化学习(Reinforcement Learning)学习笔记5

21 篇文章 1 订阅
10 篇文章 0 订阅

Reinforcement Learning:An Introduction NOTE[3]

1.3 Elements of Reinforcement Learning

RL四要素:

1. policy: 定义了learning agent在特定时刻的行为表现。

2. reward signal: 定义了RL problem的目标,反映了what is good in an immediate sense

3. value function:定义了what is good in the long run。也就是说,某一state的value指的是,agent从现在开始一直到未来可以得到的累计回报的期望。

4. model of the environment (optional, only for model-based methods):它模仿了环境的行为,也就是说给出state和action,model可以预测next state和reward。

上面是范式定义所描述的强化学习元素,下面是gym环境中涉及到的关键函数,也可以理解为软件层面不同关注视角下的另一种范式解释

下面包含两个元素

1、observation: 每一次agent行动后当前环境的状态(这个对于agent是未知的)

2、reward:  简化为float

 

 

在AGENT和环境之外,强化学习系统一般有四个主要元素:一个策略,收益信号,价值函数,和一个可选的环境模型。

策略定义了学习AGENT在给定时间内的行为方式(action函数)。简单来说,政策是从环境到在这些状态下采取的行动的映射。它符合心理学中所谓的一系列刺激反应规则或关联。在某些情况下,策略可能是一个简单的函数或查找表,而在其他情况下,它可能涉及到大量的计算,如搜索过程。该策略是增强学习AGENT的核心,因为它本身就足以确定行为。一般来说,政策可能是随机的。

收益信号定义了强化学习问题的目标。在每一个时间步,环境发给AGENT的单一信号称为收益。AGENT人的唯一目标是获得最大限度地长期收益。因此,收益信号定义了相对AGENT而言的好坏事件。在生物系统中,我们可能认为收益是类似于快乐或痛苦的经历。它们是AGENT所面临问题的直接精确的特征。收益信号是改变策略的主要依据;如果政策选择的行动之后是得到了低回报,那么策略可能会被改变,以便在未来的情况下选择其他行动。总之,收益信号可能是环境状态和所采取的行动的随机函数。

虽然奖励信号表明什么是直接意义上的好东西,但价值函数指明了长期内什么是好的。粗略地说,一个状态的价值是从该状态开始在未来可以预期累积的收益总额。鉴于收益体现了状态的直接价值,价值反映了状态长期价值。例如,一个状态的直接收益可能很低,但因为其后续状态具有高额收益,因而也具有很高的价值。或者正相反。以人类作类比,回报有点像快乐(如果是高的)和痛苦(如果是低的),而价值则对应于特定状态下一种更为精确和远见的对于喜乐的判断。我们希望以这种类比表达价值函数的基本意义。

从某种意义上说,收益是主要的,而价值作为回报的预测是次要的。没有收益就没有价值,估计价值的唯一目的是获得更多的收益。然而,在制定和评估决策时,我们最关心的是价值。行动选择是基于价值判断的。我们寻求带来最高价值的行动,而不是最高收益的,因为这些行动从长远来看对我们的回报最大。不幸的是,确定价值比确定收益要难得多。奖励基本上是由环境直接给出的,但价值必须通过AGENT人在其整个生命周期内所观察到的序列进行估计和重新估计。事实上,我们所考虑的几乎所有强化学习算法中最重要的组成部分是一种有效估计值的方法。价值评估的中心作用可以说是我们在过去几十年中学习强化学习的最重要的东西。

一些强化学习系统具有第四个也是最后一个要素,既环境模型。这是对环境的模拟,或者说,它对环境的行为做出推论。例如,给定一个状态和动作,该模型可以预测生成的下一个状态和下一个奖励。模型用于规划,用于在做出一系列行动前对未来进行预判。

使用模型和规划解决强化学习问题的方法被称为基于模型的方法,而不是简单的无模型方法。无模型方法几乎被看作是计划的反面,它通过试错学习。我们将在第8章同时学习这两种方法。现代强化学习已经从低级、尝试和错误学习跨越到高层次的、有计划的学习。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值