强化学习笔记(西湖大学课程)第四节

第三课 贝尔曼最优公式

1 开头举例:如何改进策略

重点:两个概念一个公式:OSV和OP 最优状态值和最优策略 贝尔曼最优公式

举例证明可知:求解出action value之后av最大的那种动作即是最优策略,即可以通过现有策略计算av之后得到修正策略(但此时的前提是其他sv已经是最优了)在不断迭代后可以得到最优策略

2 OP和最优公式推导

若存在一个策略,其所有的SV均优于其他策略的SV,则称其为最优策略

问题:

  • 该最优策略是否存在(存在性)

  • 该最优策略是否唯一(唯一性)

  • 该最优策略是确定性的还是非确定性的(确定性)

  • 如何得到

BOE:

定义上其实就是将贝尔曼公式的右侧嵌套一个最优化问题,对策略进行一个最优化处理而不仅仅是笼统表示为某一种策略

最右侧这部分av(qπ(s,a))啥问题都没有,和上面相比是原模原样地拿下来的,所做的唯一的处理就是求出一个最优的策略然后再代入

最优项的处理:可以发现在实际上,在q即av确定时,求解最优项即求解最大的AV

3 公式的求解以及最优性

  1. 一些概念

  • 不动点(布劳威尔不动点):有fx=x

  • 收缩映射(李普希兹条件):函数值差小于函数自变量的差

  1. 引入CMP

  • 不动点存在

  • 不动点唯一

  • 用迭代计算出最后收敛的不动点(指数收敛)

BOE的求解

首先证明fv满足李普希兹条件

则可以推至此时的最优解v * 一定存在且具有唯一性,同时可以通过迭代算法来计算vk使之逼近v *

(和之前的迭代方式相同,找一个初始值,带进去右边之后不断迭代)

  • 验证最优性

    用最优策略去替换贝尔曼公式中的策略,得到的即是最优公式,贝尔曼最优公式是策略最优时的贝尔曼公式

4 最优策略的有意思的性质

  1. 决定因素

  • 奖励r

  • 系统模型

  • 折扣率γ

  1. 系统的r线性变化后不会改变最优策略,即证明真正重要的的相对AV而不是绝对值

  2. 最短路径问题:最短路径天然由γ给出的衰减率决定,即在绕路的情况下,SV必然会出现衰减,因此SV的衰减不需要设计一个惩罚reward,绕路过程本身就是一种惩罚

  3. 最优解一定是唯一的,但是对应最优解的最优策略不一定是唯一的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值