强化学习第三章:贝尔曼最优方程

如何从贝尔曼方程到贝尔曼最优方程

  • 回顾贝尔曼方程,给定了π,求解Vπ(s)
    请添加图片描述
  • 贝尔曼最优方程指的最优策略π*下的Vπ*(s)
    在这里插入图片描述
    矩阵形式
    在这里插入图片描述

如何求解贝尔曼最优方程

增加最优策略的思想,所以方程中两个未知数,但是其中一个是个最优化问题,该问题可以抽象为:
在这里插入图片描述
优美至极:将权重π(a|s)全放给奖励最大的动作a*,最大化奖励。
在这里插入图片描述
当前状态下,取动作价值q(s, a)最大的动作之后,就剩下一个未知数Vπ(s), 对于这个问题,引入一个思想:
在这里插入图片描述
为求解该方程,引入一个工具Contraction mapping theorem
在这里插入图片描述
它具有一些性质:
在这里插入图片描述
这些性质说明了在上面方程中,最优状态价值存在且唯一,并给出了求解的方式。套入之后的形式为:
在这里插入图片描述
精辟总结为:
在这里插入图片描述

总结

内容上面原视频很精辟,注意引入的两个数学工具,一个求解最优化,一个contraction mapping theorem。
贝尔曼最优公式理解:求解V*的过程,从k=0开始,通过Vk的值(初始值)以及每次都选择动作价值最大的动作(实际变现为动作价值最大的动作占有所有权重,策略),计算状态价值Vk+1,然后迭代,一定次数(exponentially fast)之后即为V*,那其实反映了只要每次选择动作价值最大的,最终策略就是最优的,也是老师视频开头讲的。这个方法也叫做值迭代算法。
学习阶段,供自身记录知识点使用,若有错误,还请指正。

参考资料

【强化学习的数学原理】课程:从零开始到透彻理解(完结)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值