每天一个RL基础理论(1)——Bellman Optimality

最新推荐文章于 2024-01-28 14:34:15 发布

Nemo555

最新推荐文章于 2024-01-28 14:34:15 发布

阅读量733

点赞数 1

分类专栏： Deep RL 文章标签：深度强化学习理论

本文链接：https://blog.csdn.net/weixin_40056577/article/details/121104378

版权

Deep RL 专栏收录该内容

27 篇文章 51 订阅

订阅专栏

CS6789-1

一、Infinite horizon discounted MDPs
二、Bellman Optimality
三、Trajectory distribution & State-action distribution
四、QA和补充
五、总结

搬砖来源： https://wensun.github.io/CS6789_fall_2021.html

本系列尽量统一用下列术语表述。

一、Infinite horizon discounted MDPs

符号	含义
$S$	状态空间
$A$	动作空间
$P:S\times A \rightarrow \triangle(S)$	$\triangle(S)$ 代表有效的状态空间，符合环境规律的转移映射 $P$
$r:S\times A\rightarrow [0,1]$	状态和动作到 [0,1]映射的奖励函数 $r$
$\gamma\in [0,1)$	discount fator
$\mathcal{M}=(S,A,P,r,\gamma)$	MDP
$\pi:S\rightarrow \triangle(A)$	从状态空间到有效动作空间的策略映射 $\pi$
$V^\star(s)$	最优策略 $\pi^\star$ 在状态结果为s下所对应的价值
$Q^\star(s,a)$	最优策略 $\pi^\star$ 在状态结果为s，动作结果为a下所对应的价值

Infinite horizon：无限长的序列，用 $H\rightarrow \infty$ 来表示
trajectory： $\tau=\{s_0,a_0,..., s_h,a_h\}$ ，其中 $s_h$ 为第h时刻的状态变量， $a_h=a$ 意味着第h时刻的动作变量的结果为a

所以基于该MDP的setting下有：

value function : 表示初始时刻状态变量的取值为 $s$ 的价值
$V^\pi(s)=\mathbb E_{s_{0}=s,a_h\sim \pi(\cdot\mid s_h),s_{h+1}\sim p(\cdot\mid s_h,a_h)}\left[\sum_{h=0}^\infty \gamma^h r(s_h,a_h)\right]$
Q function：表示初始时刻状态变量的取值为 $s$ ，动作变量取值为a的价值
$Q^\pi(s,a)=\mathbb E_{s_{0}=s,a_{0}=a,s_{h+1}\sim p(\cdot\mid s_h,a_h),a_{h+1}\sim \pi(\cdot\mid s_{h+1})}\left[\sum_{h=0}^\infty \gamma^h r(s_h,a_h)\right]$
Bellman Consistency Equation：value function 和 Q function之间的迭代关系

$\begin{aligned} V^\pi(s)&=\mathbb E_{a\sim \pi(\cdot\mid s)}\left[Q^\pi(s,a)\right] \quad \text{(V-Q)}\\ Q^\pi(s,a)&= r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[V^\pi(s')\right]\quad \text{(Q-V)}\\ V^\pi(s)&=\mathbb E_{a\sim \pi(\cdot\mid s)}\left[ r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[V^\pi(s')\right]\right]\quad \text{(V-V)}\\ Q^\pi(s,a)&=r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left[\mathbb E_{a'\sim \pi(\cdot\mid s')}\left[Q^\pi(s',a')\right]\right]\quad\text{(Q-Q)}\\ \end{aligned}$

二、Bellman Optimality

（证明见第四部分）

性质一：在infinite horizon discounted的MDP下，存在一个deterministic且stationary的最优策略 $\pi^\star$ ，使得 $V^{\pi^\star} \geq V^\pi(s), \forall s, \pi$ ，且该optimal policy $\pi^\star$ 的value function为 $V^{\pi^\star}$ ，简记为 $V^\star$ ，满足如下性质：
$V^\star(s)=\max_a \left[r(s,a) + \gamma \mathbb E_{s'\sim P(\cdot\mid s,a)}[V^\star(s')]\right]\\ Q^\star(s,a)=r(s,a)+\gamma \mathbb E_{s'\sim p(\cdot|s,a)}\left[\max_{a'}Q^\star (s',a')\right]$
性质二：(V-version）对于任意的价值函数 $V$ ，如果其满足 $V(s)=\max_a\left[r(s,a)+\gamma\mathbb E_{s'\sim P(\cdot|s,a)}V(s')\right],\forall s$ ，则有：
$V(s)=V^\star(s)$ 同理有Q-version：
对于任意的Q值函数 $Q$ ，如果其满足 $Q(s,a)=r(s,a)+\gamma \mathbb E_{s'\sim p(\cdot|s,a)}\left[\max_{a'}Q (s',a')\right],\forall s$ ，则有：
$Q(s,a)=Q^\star(s,a)$

stationary的理解：在时间序列中，基于历史和现状去预测未来的前提是，未来与历史和现状存在一定的可延续性。更严谨的说，历史和当前时刻的状态变量 $s_h$ 有一些基本特性要在未来的一定时刻下 $s_{h+k}$ 保持不变。刻画这些变量的统计量为weak stationarity，而刻画这些变量的联合分布为strong stationarity。拓展延伸见如何理解时间序列的平稳性
从符号来严格定义non-stationary的policy可描述为： $\pi(a|s,t)$ ，与时间有关； $\pi(a|s)$ 则意味这是稳态分布， $\pi(s)$ 则意味着deterministic policy
deterministic stationary optimal policy在infinite horizon discounted的MDP下optimal policy的存在性证明

三、Trajectory distribution & State-action distribution

（trajectory distribution) 在初始状态为 $s_0$ ，策略 $\pi$ 下生成一条长度为h的trajectory $\tau_h=\{s_0,a_0,..., s_h,a_h\}$ 的概率为
$\mathbb P^\pi_{s_0}(\tau_h)= \pi(a_0|s_0)\prod_{t=0}^h p(s_{t+1}\mid s_t,a_t)\pi(a_{t+1}\mid s_{t+1})$
在初始状态为 $s_0$ , 策略 $\pi$ 下在第h时刻访问到结果为 $s, a$ 的概率为
$\mathbb P_{s_0}^\pi(\tau_{h-1},s_h=s,a_h=a)=\sum_{a_0,s_1,a_1,...,s_{h-1},a_{h-1}\in \tau_{h-1}}\mathbb P(\tau_{h-1},s_0)p(s_{t}=s|s_{t-1},a_{t-1})\pi(a_t=a|s)$ (将h-1之前时刻的所有可能结果加起来）
(state-action distribution) 在初始状态为 $s_0$ ，策略 $\pi$ 下，访问到结果为s,a的概率为 :
$d^\pi_{s_0}(s,a)=(1-\gamma)\sum_{h=0}^\infty \gamma^h \mathbb P^\pi_{s_0}(\tau_{h-1},s_h=s,a_h=a)$ (在所有时刻访问到的概率加起来)

其中 $1-\gamma$ 是用来normalized的，使得 $d^\pi_{s_0}(s,a)$ 为概率，即加起来为1
以state-action distribution的形式来表达V函数，有：
$V^\pi(s_0)=\frac{1}{1-\gamma}\sum_{s,a}d^\pi_{s_0}(s,a)r(s,a)$ (遍历所有的可能结果s,a)

四、QA和补充

Q1：为什么discount factor即 $\gamma$ 限定的范围是 $[0, 1)$ ，为什么不要1呢？

看Q2，然后思考一下，如果 $\gamma\geq1$ 又会如何？

Q2：为什么reward要映射到 $[0, 1]$ ，这有什么用？

实际的reward signal都能通过reward shaping映射到该区间中，好处是我们能因此bound住value function 和 Q-function便于分析问题，即

$\begin{aligned} 0\leq V^\pi(s)&=\mathbb E_{s_{0}=s,a_h\sim \pi(\cdot\mid s_h),s_{h+1}\sim p(\cdot\mid s_h,a_h)}\left[\sum_{h=0}^\infty \gamma^h r(s_h,a_h)\right]\\ & \leq \sum_{h=0}^\infty \gamma^h = \frac{1}{1-\gamma} \end{aligned}$

同理有：
$0\leq Q^\pi(s,a)\leq \frac{1}{1-\gamma}$

4.1 Infinite horizon discounted的MDP下deterministic stationary最优策略的存在性证明

存在性的证明思路：对于策略集合 $\Pi$ 中的 $\pi$ ( $s_h,a_h$ 均为变量，其余为变量的取值，即结果）
1. 首先证明：在初始时刻的结果为s,a,r, 第一时刻的状态结果为 $s^{'}$ 时，其最大化future discounted value有如下性质：
  $\max_{\pi\in\Pi} \mathbb E_{s_0=s,a_0=a,s_1=s',a_h\sim \pi(\cdot\mid s_h),s_{h+1}\sim p(\cdot\mid s_h,a_h)}\left[\sum_{h=1}^\infty \gamma^hr(s_h,a_h)\right]=\gamma V^\star(s')$ (这玩意说明了在一个策略集合 $\pi$ 下，给定初始结果为s,a,r,s’时，最优策略的表现仅与下一状态的结果 $s^{'}$ 有关，根据Markov Property能直觉地理解）
2. 接着构造一个deterministic stationary的policy $\tilde \pi(s)$ 如下：
  $\tilde \pi(s)=\argmax_{a\in A}\mathbb E_{s_0=s,a_0=a}\left[r(s,a)+\gamma V^\star(s_1)\right]$
3. 最后证明构造的 $\tilde \pi(s)$ 为optimal policy，即：
  $V^{\tilde \pi(s)}=V^\star(s)$
证1:
令 $h^{'} = h - 1$ ，则有：
$\begin{aligned} &\max_{\pi\in\Pi}\mathbb E_{s_0=s,a_0=a,s_1=s',a_h\sim \pi(\cdot\mid s_h),s_{h+1}\sim p(\cdot\mid s_h,a_h)}\left[\sum_{h=1}^\infty \gamma^hr(s_h,a_h)\right]\\ &=\max_{\pi\in\Pi}\mathbb E_{s_0=s,a_0=a,s_1=s',a_h\sim \pi(\cdot\mid s_h),s_{h+1}\sim p(\cdot\mid s_h,a_h)}\left[\sum_{h=1}^\infty \gamma^hr(s_h,a_h)+r(s_0,a_0)\right]\\ &=\max_{\pi\in\Pi}\mathbb E_{s_0=s',a_{h'}\sim \pi(\cdot\mid s_{h'}),s_{h'+1}\sim p(\cdot\mid s_{h'},a_{h'})}\left[\sum_{h'=0}^\infty\gamma^{h'+1}r(a_{h'},s_{h'})\right]\\ &=\max_{\pi\in\Pi}\gamma \mathbb E_{s_0=s',a_{h'}\sim \pi(\cdot\mid s_{h'}),s_{h'+1}\sim p(\cdot\mid s_{h'},a_{h'})}\left[\sum_{h'=0}^\infty\gamma^{h'}r(a_{h'},s_{h'})\right]\\ &=\max_{\pi\in\Pi}\gamma V^\pi(s') \end{aligned}$ 所以 $\begin{aligned} &\max_{\pi\in\Pi} \mathbb E_{s_0=s,a_0=a,s_1=s',a_h\sim \pi(\cdot\mid s_h),s_{h+1}\sim p(\cdot\mid s_h,a_h)}\left[\sum_{h=1}^\infty \gamma^hr(s_h,a_h)\right]\\ &= \max_{\pi\in\Pi} \gamma V^\pi(s')\\ &= \gamma V^\star(s') \end{aligned}$
证2:
首先根据定义一定有： $V^{\tilde \pi}(s)\leq V^\star(s) \quad \forall s\in S$ 然后对于第0时刻的状态变量，根据定义有
$\begin{aligned} V^\star(s_0)&= \max_{\pi\in \Pi}\mathbb E_{a_h\sim \pi(\cdot\mid s_h), s_{h+1}\sim p(\cdot\mid s_h,a_h)}\left[r(s_0,a_0) + \sum_{h=1}^\infty \gamma^h r(s_h,a_h)\right]\\ &=\max_{\pi\in\Pi} \mathbb E_{a_0\sim \pi(\cdot\mid s_0)}\left[r(s_0,a_0) + \mathbb E_{s_{h}\sim p(\cdot\mid s_0,a_0),a_{h}\sim\pi(\cdot|s_{h})}\left[\sum_{h=1}^\infty \gamma^h r(s_h,a_h)\right]\right]\\ &\leq \max_{\pi\in\Pi} \mathbb E_{a_0\sim \pi(\cdot\mid s_0)}\left[r(s_0,a_0) + \max_{\pi'\in\Pi}\mathbb E_{s_{h}\sim p(\cdot\mid s_0,a_0),a_{h}\sim\pi'(\cdot|s_{h})}\left[\sum_{h=1}^\infty \gamma^h r(s_h,a_h)\right]\right]\\ &=\max_{\pi\in\Pi} \mathbb E_{a_0\sim \pi(\cdot\mid s_0),s_1\sim p(\cdot\mid s_0,a_0)}\left[r(s_0,a_0) +\gamma V^\star(s_1)\right]\text{(利用证明1)}\\ &=\max_{a_0\in A}\mathbb E_{a_0\sim \pi(\cdot\mid s_0),s_1\sim p(\cdot\mid s_0,a_0)}\left[r(s_0,a_0) +\gamma V^\star(s_1)\right]\\ &=V^{\tilde\pi}(s_0)\text{(等于构造的策略所选的动作)} \end{aligned}$ 所以
$V^\star(s_0)\leq V^{\tilde\pi}(s_0),\forall s_0\in S$

因此构造的策略是optimal policy。

deterministic 体现在构造时选择的动作是argmax的，是一个动作点
stationary policy 体现在证明1中的change of variables即 $h^{'} = h - 1$ 时，关于时间的变量h之间是存在可延续性的，即未来时刻的变量与当前时刻的变量之间存在一些基本特性的联系

4.2 性质一的证明

证明 $V^\star(s)=\max_a \left[r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}[V^\star(s')]\right]$ 的思路为通过不等式放缩进行夹逼，相关展开基于Bellman equation
分析 $\max_a \left[r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}[V^\star(s')]\right]=\max_aQ^\star(s,a)$ ，即证 $V^\star(s)=\max_aQ^\star(s,a)$ ，等价于说策略 $\hat \pi(s)=\argmax_a Q^\star(s,a)$ 是最优策略 $\pi^\star$ ，所以只需要证明 $V^{\hat\pi(s)}=V^\star(s)$ 或 $\hat \pi(s)=\pi^\star$
已知 $V^{\hat\pi(s)} \leq V^\star(s)$ ，只需证 $V^{\hat\pi(s)}\geq V^\star(s)$ ，即可证得 $V^{\hat\pi(s)}=V^\star(s)$ ，所以有 $V^\star(s)=\max_a \left[r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}[V^\star(s')]\right]$

以下证： $V^\star(s)\leq V^{\hat\pi(s)}$
$\begin{aligned} V^\star(s)&=r(s,\pi^\star(s)) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,\pi^\star(s))}\left[V^\star(s')\right]\\ &\leq \max_a \left[r(s,a)+\gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}[V^\star(s')]\right]\\ &=\max_a Q^\star(s,a)\\ &=r(s,\hat\pi(s)) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,\hat\pi(s))}[V^\star(s')] \text{ (1)} \end{aligned}$ 是不是感觉证完了？(1)式不正是 $V^{\hat\pi(s)}$ 嘛？
可惜还真不是，根据value function的定义 $V^{\hat\pi(s)}=r(s,\hat\pi(s)) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,\hat\pi(s))}[V^{\hat\pi(s)}(s')]$

但可以对已有的不等式 $V^\star(s)\leq r(s,\hat\pi(s)) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,\hat\pi(s))}[V^\star(s')]$ 进行套娃:
$\begin{aligned} V^\star(s)&\leq r(s,\hat\pi(s)) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,\hat\pi(s))}[V^\star(s')]\\ &\leq r(s,\hat\pi(s))+\gamma \mathbb E_{s'\sim p(\cdot\mid s,\hat\pi(s))}\left[r(s',\hat\pi(s'))+\gamma \mathbb E_{s''\sim p(\cdot\mid s',\hat\pi(s'))}[V^\star(s'')]\right]\\ &\leq r(s,\hat\pi(s))+\gamma \mathbb E_{s'\sim p(\cdot\mid s,\hat\pi(s))}\left[r(s',\hat\pi(s'))+\gamma \mathbb E_{s''\sim p(\cdot\mid s',\hat\pi(s'))}\left[r(s'',\hat\pi(s''))+\gamma \mathbb E_{s'''\sim p(\cdot\mid s'',\hat\pi(s''))}[V^\star(s''')]\right]\right] \\ &\cdots\\ &=V^{\hat\pi(s)} \end{aligned}$

性质一本质上说明了这个deterministic stationary的optimal policy 则为 $\pi^\star(s)=\argmax_aQ^\star(s,a)$

4.3 性质二的证明

证明对于任意的价值函数 $V$ ，如果其满足 $V(s)=\max_a\left[r(s,a)+\gamma\mathbb E_{s'\sim p(\cdot|s,a)}V(s')\right],\forall s$ ，则有 $V(s)=V^\star(s)$ 的思路为对 $|V(s)-V^\star(s)|$ 进行放缩，小于等于一个为0的项，展开基于Bellman equation

证：（第一步利用了性质一即 $V^\star(s)=\max_a \left[r(s,a) + \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}[V^\star(s')]\right]$ )
$\begin{aligned} |V(s)-V^\star(s)|&=\left |\max_a\left[r(s,a)+\gamma\mathbb E_{s'\sim p(\cdot|s,a)}V(s')\right]-\max_a\left[r(s,a)+\gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}V^\star(s')\right] \right|\\ &\leq \max_a\left|\gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}[V(s')-V^\star(s')]\right|\\ &\leq \max_a \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left|V(s')-V^\star(s')\right|\\ &\leq \max_a \gamma \mathbb E_{s'\sim p(\cdot\mid s,a)}\left| \max_{a'} \gamma \mathbb E_{s''\sim p(\cdot\mid s',a')}\left|V(s'')-V^\star(s'')\right|\right|\\ &\leq \max_{a_1,...,a_k} \gamma^k \mathbb E_{s^k\sim p(\cdot\mid s_{k-1},a_{k-1})}\left[|V(s_k)-V^\star(s_k)|\right]\\ &\leq \max_{a_1,...,a_k} \gamma^k \times \frac{2}{1-\gamma}\text{( $\|V\|\leq\frac{1}{1-\gamma}$)}\\ &\leq \lim_{k\rightarrow \infty} \max_{a_1,...,a_k} \frac{2\gamma^k}{1-\gamma}=0 \end{aligned}$

五、总结

理解策略的平稳性和确定性
理解infinite horizon discounted这个setting
在该MDP setting下存在一个deterministic stationary的optimal policy会满足两个性质，称为Bellman Optimality
所以如果在该setting下，有满足性质的V和Q，那么它就是determinsitc stationary optimal policy的V和Q