强化学习笔记03——有限马尔科夫过程

代理环境交互

在强化学习中,将学习器和决策器称为代理,而与代理交互的事物称为环境。可将问题认为代理与环境的交互。
这里写图片描述
代理会产生一个与环境对应的策略,用 πt 表示, πt(a|s) 表示在状态为s的情况下采取动作a的概率。

目标与报酬

强化学习的目标就是最大化获得的报酬总和。
我们将代理与环境的一次完整交互过程称为一个episode.在一次episode中t时刻获得的期望回报可以写为:
这里写图片描述
T为最后一步的时间
在考虑衰减因子的情况下,可以写为:
这里写图片描述
γ<1 的情况下, Gt 趋于有限值,且时间越近的报酬对 Gt 影响越大;当 γ=1 ,即只考虑当前的报酬;当 γ=1 ,即考虑将来的所有回报。

阶段性任务(Episodic Tasks)和连续任务(Continuing Tasks)

Episodic Tasks是在有限时间内采取只受到有限的报酬影响,相对Continuing Tasks更容易考虑。例如下图:
这里写图片描述
可将回报写为

Gt=k=0Tt1γkRt+k+1

T= γ=1 回报为连续任务的回报,否则为阶段性任务的回报。

马尔科夫性质

看看下面的公式:
这个公式在计算下一步(状态是 s 、奖赏是r)的概率。
并说明这个概率是由至今为止所有的状态 S ,行动 A 和奖赏 R 决定的。
这里写图片描述
若具有马尔科夫性质,这该公式可以简化为:
这里写图片描述
即下一步的状态和奖励仅仅与当前的状态和奖励相关。

马尔科夫决策过程

强化学习的问题满足马尔科夫条件时成为马尔科夫决策过程,一般情况下,都会提出马尔科夫的假设条件。
由此,给定当前状态和奖励即可求得下一状态和奖励,即:
这里写图片描述
此时由当前的状态和动作决定的期望报酬可以写为:
这里写图片描述
状态转移概率为:
这里写图片描述
当前状态下采取的策略都由该概率决定。
当下一状态确定的情况下,当前动作和状态决定的报酬可以写为:
这里写图片描述

值函数

值函数定义如下:
这里写图片描述
它代表的含义是在当前状态下获得报酬的期望。当采取的动作确定时,又有状态动作值函数:
这里写图片描述
这两种值函数可以相互转化:
这里写图片描述
该公式为Bellman equation
两种函数的备份图(backup diagrams)如下:
这里写图片描述

最优化值函数

强化学习的目标现在转变为最优化值函数即可,即:
这里写图片描述
或者
这里写图片描述
两者关系:
这里写图片描述
最优状态价值迭代方法:
这里写图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值