强化学习第三章:贝尔曼最优方程
如何从贝尔曼方程到贝尔曼最优方程
- 回顾贝尔曼方程,给定了π,求解Vπ(s)
- 贝尔曼最优方程指的最优策略π*下的Vπ*(s)
矩阵形式
如何求解贝尔曼最优方程
增加最优策略的思想,所以方程中两个未知数,但是其中一个是个最优化问题,该问题可以抽象为:
优美至极:将权重π(a|s)全放给奖励最大的动作a*,最大化奖励。
当前状态下,取动作价值q(s, a)最大的动作之后,就剩下一个未知数Vπ(s), 对于这个问题,引入一个思想:
为求解该方程,引入一个工具Contraction mapping theorem
它具有一些性质:
这些性质说明了在上面方程中,最优状态价值存在且唯一,并给出了求解的方式。套入之后的形式为:
精辟总结为:
总结
内容上面原视频很精辟,注意引入的两个数学工具,一个求解最优化,一个contraction mapping theorem。
贝尔曼最优公式理解:求解V*的过程,从k=0开始,通过Vk的值(初始值)以及每次都选择动作价值最大的动作(实际变现为动作价值最大的动作占有所有权重,策略),计算状态价值Vk+1,然后迭代,一定次数(exponentially fast)之后即为V*,那其实反映了只要每次选择动作价值最大的,最终策略就是最优的,也是老师视频开头讲的。这个方法也叫做值迭代算法。
学习阶段,供自身记录知识点使用,若有错误,还请指正。