动态规划强化学习：价值迭代与策略迭代详解-CSDN博客

基于动态规划的强化学习

一、MDP目标和策略

价值函数的Bellman等式

给策略 $\pi$ 定义价值函数

在这里插入图片描述

最优价值函数

对状态 $s$ 来说的最优价值函数是所有策略可获得的最大可能折扣奖励的和

${V^{*}(s)=\max\limits_{\pi}{V^{\pi}(s)}}$

最优价值函数的Bellman等式

${V^{*}(s)}={R(s)+\max\limits_{a\in A}{\gamma\sum\limits_{s' \in S}{P_{sa}(s')V^{*}(s')}}}$

最优策略
${\pi^{*}(s)}={\arg\max\limits_{a \in A}{\sum\limits_{s' \in S}{P_{sa}(s')V^{*}(s')}}}$

对状态 $s$ 和策略 $\pi$

${V^{*}(s)}={V^{\pi^{*}}(s)\geq V^{\pi}(s)}$

二、价值迭代和策略迭代

价值函数和策略相关

${V^{\pi}(s)}={R(s)+\gamma\sum\limits_{s' \in S}{P_{s\pi{(s)}}V^{\pi}(s')}}$

${\pi{(s)}}={\arg\max\limits_{a \in A}{\sum\limits_{s' \in S}{P_{sa}(s')V^{\pi}(s')}}}$

可以对最优价值函数和最优策略执行迭代更新

价值迭代
策略迭代

三、价值迭代

对于一个动作空间和状态空间有限的MDP

$|S|<\infty,|A|<\infty$

价值迭代过程

对每个状态 $s$ ，初始化 $V (s) = 0$
重复以下过程直到收敛
对每个状态，更新
$ ${V(s)}={R(s)+\max\limits_{a \in A}{\gamma\sum\limits_{s' \in S}{P_{sa}(s')V(s')}}}$

注意：在以上的计算中没有明确的策略，只局限于数值计算

同步/异步价值迭代

同步价值迭代： 同步的价值迭代会储存两份价值函数的拷贝

对 $S$ 中的所有状态 $s$
${V_{new}(s)}\leftarrow\max\limits_{a \in A}{\left(R(s)+\gamma\sum\limits_{s' \in S}{P_{sa}{(s')}V_{old}{(s')}}\right)}$
更新
${V_{old}{(s)}}\leftarrow{V_{new}{(s)}}$

需要两倍的空间进行存储

异步价值迭代： 异步价值迭代只储存一份价值函数

对 $S$ 中的所有状态 $s$
${V(s)}\leftarrow{\max\limits_{a \in A}{\left(R(s)+\gamma\sum\limits_{s' \in S}{P_{sa}{(s')}V(s')}\right)}}$

在中间过程中，可能会有些值提前被更新，导致更新不一致
只需要存储一份价值函数，存在更新紊乱

价值迭代例子：最短路径

在这里插入图片描述

四、策略迭代

对于一个动作空间和状态空间有限的MDP

$|S|<\infty,|A|<\infty$

策略迭代过程

随机初始化策略 $\pi$
重复以下过程直到收敛
1. 让 $V:=V^{\pi}$
2. 对每个状态，更新
  $\pi{(s)}={\arg\max\limits_{s' \in S}{P_{sa}{(s')}V(s')}}$

更新价值函数会很耗时,即计算 $V^{\pi}$ 这个步骤需要很大的计算量

策略评估

估计 $V^{\pi}$
迭代的评估策略

策略改进

生成 $\pi'\geq\pi$
贪心策略改进

在这里插入图片描述

举例：策略评估

在这里插入图片描述

非折扣MDP（ $\gamma=1$ ）
非终止状态： $1,\dots,14$
两个终止状态（灰色方格）
如果动作指向所有方格以外，则这一步不动
奖励均为-1，直到到达终止状态
智能体的策略为均匀随机策略

${\pi(n|\cdot)}={\pi(e|\cdot)}={\pi(s|\cdot)}={\pi(w|\cdot)}=0.25$

在这里插入图片描述

五、比较价值迭代和策略迭代

价值迭代是贪心更新法，局部性上进行更新，没有真正意义上去计算 V（、pi）
策略迭代中，用Bellman等式更新价值函数代价很大
对于空间较小的MDP，策略迭代通常很快收敛
对于空间较大的MDP，价值迭代更实用（效率更高）
如果没有状态转移循环，最好使用价值迭代

六、常见问题

价值迭代的同步更新和异步更新在收敛速度和效果上会有区别吗？

异步更新的收敛一般收敛快一些。但是如果没有达到收敛，异步更新得到的部分状态的价值可能和ground truth差距较大，不敢直接用来构建policy。原因是异步更新可能使得部分状态更新的不如别的状态快。

为什么空间较小的MDP，策略迭代收敛很快；而空间较大，价值迭代更实用？

策略迭代是对于策略的直接优化，所以在空间较小的MDP上可以收敛很快，但是策略本身是基于当前状态动作的分布；
价值迭代是对于通过对状态评估间接得出最优的策略，价值迭代本身是基于状态的分布，所以更加稳定高效。

基于动态规划的强化学习

基于动态规划的强化学习

一、MDP目标和策略

相关概念

价值函数的Bellman等式

最优价值函数

二、价值迭代和策略迭代

三、价值迭代

同步/异步价值迭代

价值迭代例子：最短路径

四、策略迭代

举例：策略评估

五、比较价值迭代和策略迭代

六、常见问题

价值迭代的同步更新和异步更新在收敛速度和效果上会有区别吗？

为什么空间较小的MDP，策略迭代收敛很快；而空间较大，价值迭代更实用？