强化学习—(最优)贝尔曼方程推导以及对(最优)动作价值函数、(最优)状态价值函数的理解

最新推荐文章于 2025-03-01 13:25:55 发布

chp的博客

最新推荐文章于 2025-03-01 13:25:55 发布

阅读量1.3k

点赞数 2

分类专栏：强化学习文章标签：算法强化学习

本文链接：https://blog.csdn.net/qq_43851311/article/details/132007129

版权

强化学习专栏收录该内容

8 篇文章

订阅专栏

强化学习中首先要明白(折扣)回报的定义：
$U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+......\gamma^n R_{n}$
这里的 $R$ 是 reward:奖励， $R_t$ 与当前的状态 $S_t$ 、当前的动作 $A_t$ 、以即 $S_{t+1}$ 相关(或者简单认为 $R_t$ 只与当前的状态 $S_t$ 、当前的动作 $A_t$ 相关)，也就是说：
$R_t=r(S_t,A_t,S_{t+1})$ ，这里的大写字母代表具有随机性，小写字母表示已经被观测，没有随机性。

动作价值函数 $Q_{\pi}(s_t,a_t)$ 与当前的策略函数 $\pi$ 、当前动作 $a_t$ 、当前的状态 $s_t$ 有关，动作价值函数是回报的期望 $Q_{\pi}(s_t,a_t)=E_{S_{t+1},A_{t+1},...,S_{n},A_{n}}[U_t|S_t=s_t,A_t=a_t]$ ，也就是说对后续的 $S_{t+1},A_{t+1},...,S_{n},A_{n}$ 求期望，消除了这些状态和动作的随机性。

状态价值函数 $V_{\pi}(s_t)$ 与当前的策略函数 $\pi$ 、当前的状态 $s_t$ 有关，是用来评估，在当前策略 $\pi$ 下，状态 $s_t$ 的好坏，算期望消除了动作的随机性。
$V_{\pi}(s_t)=\sum\limits_{a\in\mathcal{A}}\pi(a|s_t)*Q_{\pi}(s_t,a_t)$

最优动作价值函数 $Q_*(s_t,a_t)$ 表示当前的策略是最优的情况下，在状态 $s_t$ 做动作 $a_t$ 能得到的价值，这个价值一定是各种策略下在状态 $s_t$ 做动作 $a_t$ 能得到的价值中最高的，因为我们的策略是最优的。 $Q_*(s_t,a_t)=\max_{\pi}Q_{\pi}(s_t,a_t)$

最优状态价值函数 $V_*(s_t)$ ， $V_*(s_t)=\max_{a}Q_*(s_t,a_t)$ ， $V_*(s_t)$ 表示在最优策略下，最高的最优动作价值 $Q_*(s_t,a_t)$

对动作价值函数、状态价值函数的理解
可以看这篇博客强化学习中状态价值函数和动作价值函数的理解，讲的很好，通俗易懂

贝尔曼方程1
$Q_{\pi}(s_t,a_t)=E_{S_{t+1},A_{t+1}}[R_t+\gamma Q_{\pi}(S_{t+1},A_{t+1})|S_t=s_t,A_t=a_t]$
证明:

$U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+......\gamma^n R_{n}$
$U_t=R_t+U_{t+1}$
$Q_{\pi}(s_t,a_t)=E_{S_{t+1}:,A_{t+1}:}[U_t|S_t=s_t,A_t=a_t]$ 这里用：来做省略
将2代入3中，得
$Q_{\pi}(s_t,a_t)=E_{S_{t+1}:,A_{t+1}:}[R_t+U_{t+1}|S_t=s_t,A_t=a_t]$
拆开式子为两部分
$E_{S_{t+1}:,A_{t+1}:}[R_t|S_t=s_t,A_t=a_t]$ 和 $E_{S_{t+1}:,A_{t+1}:}[U_{t+1}|S_t=s_t,A_t=a_t]$
其中 $E_{S_{t+1}:,A_{t+1}:}[R_t|S_t=s_t,A_t=a_t]$ ， $R_t$ 只与当前的状态 $S_t$ 、当前的动作 $A_t$ 、以即 $S_{t+1}$ 相关，所以，可转化为 $E_{S_{t+1}}[R_t|S_t=s_t,A_t=a_t]$
$E_{S_{t+1}:,A_{t+1}:}[U_{t+1}|S_t=s_t,A_t=a_t]$ =
= $E_{S_{t+1},A_{t+1}}[E_{S_{t+2}:,A_{t+2}:}[U_{t+1}|S_{t+1},A_{t+1}]|S_t=s_t,A_t=a_t]$
= $E_{S_{t+1},A_{t+1}}[Q_{\pi}(S_{t+1},A_{t+1})|S_t=s_t,A_t=a_t]$
将6、9带入到4中可得
$Q_{\pi}(s_t,a_t)=E_{S_{t+1},A_{t+1}}[R_t+Q_{\pi}(S_{t+1},A_{t+1})|S_t=s_t,A_t=a_t]$
证明完毕

贝尔曼方程2
因为 $V_{\pi}(S_{t+1})=E_{A_{t+1}}Q(S_{t+1},A_{t+1})$
所以上式贝尔曼方程1可以转换为
$Q_{\pi}(s_t,a_t)=E_{S_{t+1}}[R_t+V_{\pi}(S_{t+1})|S_t=s_t,A_t=a_t]$

贝尔曼方程3
因为 $V_{\pi}(S_{t})=E_{A_{t}}Q(S_{t},A_{t})$
所以上式贝尔曼方程2可以转换为
$V_{\pi}(s_{t})=E_{S_{t+1},A_t}[R_t+V_{\pi}(S_{t+1})|S_t=s_t,A_t=a_t]$

最优贝尔曼方程
$Q_*(s_t,a_t)=E_{S_{t+1}\sim p(\cdot|s_t,a_t)}[R_t+\gamma * max_{A\in \mathcal{A}}Q_*(S_{t+1},A)|S_t=s_t,A_t=a_t]$
$\pi^*=argmax_{\pi}Q_{\pi}(s,a)$
由贝尔曼方程可得
$Q_{\pi^*}(s_t,a_t)=E_{S_{t+1},A_{t+1}}[R_t+Q_{\pi^*}(S_{t+1},A_{t+1})|S_t=s_t,A_t=a_t]$
$Q_{\pi^*}(s_t,a_t)=Q_{*}(s_t,a_t)$ ，可得
$Q_{*}(s_t,a_t)=E_{S_{t+1},A_{t+1}}[R_t+Q_{*}(S_{t+1},A_{t+1})|S_t=s_t,A_t=a_t]$
动作 $A_{t+1}=argmax_A Q_{*}(S_{t+1},A)$ 是状态 $S_{t+1}$ 的确定函数(最好的那个动作)，所以
$Q_*(s_t,a_t)=E_{S_{t+1}\sim p(\cdot|s_t,a_t)}[R_t+\gamma * max_{A\in \mathcal{A}}Q_*(S_{t+1},A)|S_t=s_t,A_t=a_t]$