强化学习中贝尔曼等式推导过程中的疑问解答

最新推荐文章于 2023-03-14 10:03:52 发布

云月墨染

最新推荐文章于 2023-03-14 10:03:52 发布

阅读量397

点赞数 1

分类专栏： pytorch强化学习笔记

本文链接：https://blog.csdn.net/qq_42818011/article/details/118900182

版权

pytorch强化学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.贝尔曼等式

$\gamma \sum\limits_{s' \in S} {P(s'|s)V(s')}$ 其中：

$R (s)$ 是Immediate reward
$\gamma \sum\limits_{s' \in S}{P(s'|s)V(s')}$ 是Discounted sum of future reward
$s^{'}$ 是未来的所有状态
$V (s^{'})$ 代表未来某一个状态的价值
$P (s^{'} ∣ s)$ 代表从当前状态转移到未来状态的概率
贝尔曼等式定义了当前状态与未来状态之间的关系

2.基础巩固

条件概率公式： $P (A, B) = P (A B) = P (A ∣ B) P (B) = P (B ∣ A) P (A)$
全概率公式： $\sum\limits_i {P({A_i})P(B|{A_i})}$
贝叶斯公式： $\frac{{P(B|A)P(A)}}{{P(B)}}$

3.全期望公式（LIE）

若 $A_i$ 是样本空间的有限或可数的划分，则全期望公式可表示为： $E\left( X \right) = \sum\limits_i {E\left( {X|{A_i}} \right)P({A_i})}$ 为了简洁，令 $s=s_t$ ， $g'=G_{t+1}$ ， $s'=s_{t+1}$ ，则回报的期望可以表示为： $\mathbb{E}\left[ {{G_{t + 1}}|{s_{t + 1}}} \right] = \mathbb{E}\left[ {g'|s'} \right] = \sum\limits_{g'} {gp(g'|s')}$ 令 $s_t=s$ ，对上式求期望有： $\begin{array}{l}\mathbb{E}\left[ {\mathbb{E}\left[ {{G_{t + 1}}|{s_{t + 1}}} \right]|{s_t}} \right] = \mathbb{E}\left[ {\mathbb{E}\left[ {g'|s'} \right]|s} \right]\\{\rm{ = }}\sum\limits_{s'} {\sum\limits_{g'} {\mathbb{E}\left[ {\mathbb{E}\left[ {g'|s'} \right]} \right]p(g'|s',s)p(s'|s)} } \\{\rm{ = }}\sum\limits_{s'} {\sum\limits_{g'} {\frac{{g'p(g'|s',s)p(s'|s)p(s)}}{{p(s)}}} } \\{\rm{ = }}\sum\limits_{s'} {\sum\limits_{g'} {\frac{{g'p(g'|s',s)p(s',s)}}{{p(s)}}} } \\{\rm{ = }}\sum\limits_{g'} {\sum\limits_{s'} {\frac{{g'p(g',s',s)}}{{p(s)}}} } \\ = \sum\limits_{g'} {\frac{{g'p(g',s)}}{{p(s)}}} \\ = \sum\limits_{g'} {g'p(g'|s)} \\ = \mathbb{E}\left[ {g'|s} \right] = \mathbb{E}\left[ {{G_{t + 1}}|{s_t}} \right]\end{array}$ 即： $\mathbb{E}\left[ {V({s_{t + 1}})|{s_t}} \right] = \mathbb{E}\left[ {\mathbb{E}\left[ {{G_{t + 1}}|{s_{t + 1}}} \right]|{s_t}} \right] = \mathbb{E}\left[ {{G_{t + 1}}|{s_t}} \right]$

4.贝尔曼等式推导

$\begin{array}{l}V(s) = \mathbb{E}\left[ {{G_t}|{s_t} = s} \right]\\ = \mathbb{E}\left[ {{R_{t + 1}} + \gamma {R_{t + 2}} + {\gamma ^2}{R_{t + 3}} + \ldots |{s_t} = s} \right]\\ = \mathbb{E}\left[ {{R_{t + 1}}|{s_t} = s} \right] + \gamma \mathbb{E}\left[ {{R_{t + 2}} + \gamma {R_{t + 3}} + {\gamma ^2}{R_{t + 4}} \ldots |{s_t} = s} \right]\\ = R(s) + \gamma \mathbb{E}\left[ {{G_{t + 1}}|{s_t} = s} \right]\\ = R(s) + \gamma \mathbb{E}\left[ {V({s_{t + 1}})|{s_t} = s} \right]\\ = R(s){\rm{ + }}\gamma \sum\limits_{s' \in S} {P(s'|s)V(s')} \end{array}$ 贝尔曼等式就是当前状态与未来状态的迭代关系，表示当前状态的值函数可以通过下个状态的值函数来计算。

小白经验记录，大神请批评指正。
如果文章对你有用，请点个赞吧~

云月墨染

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
5
评论
强化学习中贝尔曼等式推导过程中的疑问解答

V(s)=R(s)+γ∑s′∈SP(s′∣s)V(s′)V(s) = R(s) + \gamma \sum\limits_{s' \in S} {P(s'|s)V(s')} V(s)=R(s)+γs′∈S∑P(s′∣s)V(s′)
复制链接

扫一扫