贝尔曼方程基于全期望公式的前期推导

最新推荐文章于 2023-11-26 23:38:47 发布

Yana_Zeng

最新推荐文章于 2023-11-26 23:38:47 发布

阅读量1.1k

点赞数 3

分类专栏： Reinforcement Learning 文章标签：期望条件期望数学证明贝尔曼方程随机变量

本文链接：https://blog.csdn.net/Yana_Zeng/article/details/125129334

版权

Reinforcement Learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、需要证明：

$\mathbb{E} [V(s_{t+1})|s_t] = \mathbb{E} [ \mathbb{E}{[G_{t+1}|s_{t+1}]|s_t}] = \mathbb{E} {[G_{t+1}|s_t}], \tag{1}$ 其中第一个等号可以由定义 $V(s_{t+1})=\mathbb{E}[G_{t+1}|s_{t+1}]$ 直接得。现证明第二个等号。公式（1）将有利于推导贝尔曼方程。

二、证明过程：

为了简化符号表达，先把公式（1）的符号下标省略。 $s_t = s$ , $G_{t+1} = g'$ 和 $s_{t+1} = s'$ .
说明几个将会用到的公式
1. If x is a discrete random variable, then, it expectation value $\mathbb{E}[x]$ is,
$\mathbb{E}[x] = \sum_x xp(x) = \sum_i \mathbb{E} [x|A_i] p(A_i)= \sum_x x \sum_ip(x|A_i)p(A_i), \tag{2}$ 其中 $p (x)$ 表示 $x$ 的概率密度函数, 且 $\sum_ip(x|A_i)p(A_i)$ 【全概率公式】。
2. If x and y are discrete random variables, then, their conditional expectation value $\mathbb{E}[y|x]$ is,
$\mathbb{E}[y|x] = \sum_y yp(y|x). \tag{3}$
可以看到需要证明的公式是一个具有双重期望与双重条件集的等式 $\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}]$ 。所以先尝试推导一个简单的情况( 双重期望、单条件集的情况)，即 $\mathbb{E} [ \mathbb{E}{[g'|s']}] = \mathbb{E} {[g'}]$ ：
$\mathbb{E} [ \mathbb{E}{[g'|s']}] = \sum_{s'}\mathbb{E}{[g'|s']} p(s')\\ = \sum_{s'} \sum_{g'} g'p(g'|s') p(s') \\ =\sum_{g'} g' [\sum_{s'} p(g'|s') p(s')] \\ = \sum_{g'} g' [\sum_{s'} p(g',s')] \\ = \sum_{g'} g'p(g') = \mathbb{E} {[g'}]. \tag{4}$ 首先我们需要关注的是期望 $\mathbb{E}(\cdot)$ 是对谁求期望。即，在 $\mathbb{E} [ \mathbb{E}{[g'|s']}]$ 中，第一个期望 $\mathbb{E}$ 针对 $s^{'}$ ，第二个期望 $\mathbb{E}$ 针对 $g^{'}$ . 所以：
公式(4)的第一个等号，可以根据公式(2)得出。公式(4)的第二个等号，可以根据公式(3)得出.
公式(4)的第三个等号，做了个交换顺序。公式(4)的第四个、五个等号，可以从公式(2)提及的全概率公式知道。
现在来推我们想要的双重期望与双重条件集的等式 $\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \mathbb{E} {[g'|s}]$ 就容易多了：
$\mathbb{E} [ \mathbb{E}{[g'|s']|s}] = \sum_{s'}\mathbb{E}{[g'|s',s]} p(s'|s)\\ = \sum_{s'} [ \sum_{g'} g' p(g'|s',s) ] p(s'|s)\\ = \sum_{g'} g' [ \sum_{s'}p(g'|s',s) p(s'|s) ] \\ = \sum_{g'} g' [ \sum_{s'} p(g',s'|s) ] \\ = \sum_{g'} g' p(g'|s) = \mathbb{E} {[g'|s}] \tag{5}.$ 与公式(4)同样的思路，我们先分析每个期望 $\mathbb{E}(\cdot)$ 是对谁求期望。即，在 $\mathbb{E} [ \mathbb{E}{[g'|s']|s}]$ 中，第一个期望 $\mathbb{E}$ 针对 $s^{'}$ ，第二个期望 $\mathbb{E}$ 针对 $g^{'}$ （和公式(4)一样）. 所以：
公式(5)的第一个等号，与公式(4)相比，只是多了个 $s$ 作为条件集（注意的是因为这里 $s$ 条件集并没有被要求做期望 $\mathbb{E}$ ，所以它只发挥条件集的作用）。
公式(5)的第二个等号，可以根据公式(3)得出.
公式(5)的第三个等号，做了个交换顺序。
公式(5)的第四个等号，可以从公式(2)提及的全概率公式知道：相比公式(2)的 $p (g^{'} ∣ s^{'}) p (s^{'}) = p (g^{'}, s^{'})$ , 这里也只是多了个条件集，所以类似有 $p (g^{'} ∣ s^{'}, s) p (s^{'} ∣ s) = p (g^{'}, s^{'} ∣ s)$ 。