12. 动态规划之值迭代

最新推荐文章于 2024-03-22 10:26:18 发布

aganim

最新推荐文章于 2024-03-22 10:26:18 发布

阅读量212

点赞数

分类专栏：我的强化学习笔记文章标签：动态规划算法

本文链接：https://blog.csdn.net/caijungan/article/details/135166000

版权

我的强化学习笔记专栏收录该内容

22 篇文章 0 订阅

订阅专栏

文章目录

1. 什么是值迭代
2. 策略迭代与值迭代的不同
- 2.1 策略迭代流程与公式
- 2.2 值迭代流程及公式

1. 什么是值迭代

根据贝尔曼最优方程，直接使用行为回报的最大值更新原来的策略函数值，这种规划方法称为基于值迭代的方法。

2. 策略迭代与值迭代的不同

根本的不同在于所使用的贝尔曼方程。

2.1 策略迭代流程与公式

策略迭代流程使以下3步反复进行的过程。
第1步：根据策略 $\pi(a|s)$ （初始值一般为随机均匀分布）利用贝尔曼期望方程迭代形式更新值函数 $V_\pi(s)$
$V_\pi(s)\leftarrow\sum_{a\in A}\pi(a|s)\left( R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV_\pi(s') \right)$
上述式子可以迭代1次，也可以迭代多次直至 $V_\pi(s)$ 收敛到某个值

第2步：根据更新后的值函数 $V_\pi(s)$ ，利用贝尔曼期望方程求行为值函数 $Q_\pi(s,a)$
$Q_\pi(s,a)\leftarrow R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV_\pi(s')$
第3步：根据 $Q_\pi(s,a)$ 优化策略
$\pi(a|s)\leftarrow\begin{cases} 1 \quad a=\arg\max_{a\in A}Q(s,a)\\ 0 \quad 其他 \end{cases}$

2.2 值迭代流程及公式

根据贝尔曼最优方程 $V^*(s)=\max_{a\in A}\left[ R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV^*(s') \right]$ 导出值迭代公式
$V(s)\leftarrow \max_{a\in A}\left[ R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV(s') \right]$
利用迭代公式迭代直至 $V (s)$ 收敛到达或接近最优值函数 $V (s)$ ,此时此刻，对应的策略也是最优的，
因此后续根据收敛后的V(s)，根据贝尔曼最优方程计算出最优策略：
$\pi^*(a|s)=\arg\max_{a\in A}\left[ R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV(s) \right]$