【强化学习的数学原理】第七课：时序差分方法_强化学习时序差分例子说明-CSDN博客

本文链接：https://blog.csdn.net/qq_44044341/article/details/134093318

文章目录

【例子】

✨例子1：

$w=\mathbb{E}[X]$

对于一些样本 ${x\}$ of $X$
假设 $g(w)=w-\mathbb{E}[X]$ ，我们将问题转化为RF问题令 $g (w) = 0$
由于我们能从X中获得 ${x}$ ：
$\tilde{g}(w, \eta)=w-x=(w-\mathbb{E}[X])+(\mathbb{E}[X]-x) \doteq g(w)+\eta$
依据RM算法：
$w_{k+1}=w_k-\alpha_k \tilde{g}\left(w_k, \eta_k\right)=w_k-\alpha_k\left(w_k-x_k\right)$

✨例子2：

$w=\mathbb{E}[v(X)],$

对于一些样本 ${x\}$ of $X$
为了解决这个问题：
$\begin{aligned} g(w) & =w-\mathbb{E}[v(X)] \\ \tilde{g}(w, \eta) & =w-v(x)=(w-\mathbb{E}[v(X)])+(\mathbb{E}[v(X)]-v(x)) \doteq g(w)+\eta \end{aligned}$
依据RM算法：
$w_{k+1}=w_k-\alpha_k \tilde{g}\left(w_k, \eta_k\right)=w_k-\alpha_k\left[w_k-v\left(x_k\right)\right]$

✨例子3：

$w=\mathbb{E}[R+\gamma v(X)]$

其中 $R, X$ 是随机变量， $\gamma$ 是常量， $v(\cdot)$ 是函数
我们能获得 ${x\}\{r\}$ 的采样从X和R中
$\begin{aligned} g(w) & =w-\mathbb{E}[R+\gamma v(X)] \\ \tilde{g}(w, \eta) & =w-[r+\gamma v(x)] \\ & =(w-\mathbb{E}[R+\gamma v(X)])+(\mathbb{E}[R+\gamma v(X)]-[r+\gamma v(x)]) \\ & \doteq g(w)+\eta \end{aligned}$
依据RM算法：
$w_{k+1}=w_k-\alpha_k \tilde{g}\left(w_k, \eta_k\right)=w_k-\alpha_k\left[w_k-\left(r_k+\gamma v\left(x_k\right)\right)\right]$

【state value的TD算法】

TD算法是基于数据而不是基于模型的算法：

数据：依据给定的策略 $\pi$ 产生的 $\left(s_0, r_1, s_1, \ldots, s_t, r_{t+1}, s_{t+1}, \ldots\right)$ 也可以写成集合的形式 $\left\{\left(s_t, r_{t+1}, s_{t+1}\right)\right\}_t$
$\begin{aligned} v_{t+1}\left(s_t\right) & =v_t\left(s_t\right)-\alpha_t\left(s_t\right)\left[v_t\left(s_t\right)-\left[r_{t+1}+\gamma v_t\left(s_{t+1}\right)\right]\right] \\ v_{t+1}(s) & =v_t(s), \quad \forall s \neq s_t, \end{aligned}$
算法：
$\underbrace{v_{t+1}\left(s_t\right)}_{\text {new estimate }}=\underbrace{v_t\left(s_t\right)}_{\text {current estimate }}-\alpha_t\left(s_t\right)[\overbrace{v_t\left(s_t\right)-[\underbrace{r_{t+1}+\gamma v_t\left(s_{t+1}\right)}_{\text {TD target } \bar{v}_t}]}^{\text {TD error } \delta_t}] \text {, }$

TD target： $\bar{v}_t \doteq r_{t+1}+\gamma v\left(s_{t+1}\right)$ ，将 $v(s_t)$ 向着 $\bar{v}_t$ 改进，这是一个目标值

$\begin{aligned} & v_{t+1}\left(s_t\right)=v_t\left(s_t\right)-\alpha_t\left(s_t\right)\left[v_t\left(s_t\right)-\bar{v}_t\right] \\ \Longrightarrow & v_{t+1}\left(s_t\right)-\bar{v}_t=v_t\left(s_t\right)-\bar{v}_t-\alpha_t\left(s_t\right)\left[v_t\left(s_t\right)-\bar{v}_t\right] \\ \Longrightarrow & v_{t+1}\left(s_t\right)-\bar{v}_t=\left[1-\alpha_t\left(s_t\right)\right]\left[v_t\left(s_t\right)-\bar{v}_t\right] \\ \Longrightarrow & \left|v_{t+1}\left(s_t\right)-\bar{v}_t\right|=\left|1-\alpha_t\left(s_t\right)\right|\left|v_t\left(s_t\right)-\bar{v}_t\right| \end{aligned}$

由于 $\alpha_t\left(s_t\right)$ 是一个很小的数字，所以：
$0<1-\alpha_t\left(s_t\right)<1$
因此：
$\left|v_{t+1}\left(s_t\right)-\bar{v}_t\right| \leq\left|v_t\left(s_t\right)-\bar{v}_t\right|$
意味着 $v\left(s_t\right)$ 趋向于 $\bar{v}_{t} !$
TD error： $\delta_t \doteq v\left(s_t\right)-\left[r_{t+1}+\gamma v\left(s_{t+1}\right)\right]=v\left(s_t\right)-\bar{v}_t$ ，
- 它描述了两个时刻，所以是时序差分
- 描述了 $v_t$ 和 $v_\pi$ 的误差：
  - $\delta_{\pi, t} \doteq v_\pi\left(s_t\right)-\left[r_{t+1}+\gamma v_\pi\left(s_{t+1}\right)\right]$
  - 对其求期望得： $\mathbb{E}\left[\delta_{\pi, t} \mid S_t=s_t\right]=v_\pi\left(s_t\right)-\mathbb{E}\left[R_{t+1}+\gamma v_\pi\left(S_{t+1}\right) \mid S_t=s_t\right]=0$
    - $v_t=v_\pi$ 时候 $\delta_{t}$ 为0
    - $v_t !=v_\pi$ 时候 $v_t$ 还不等于 $v_{\pi}$
性质：
- 给定一个策略估计他的state value，不能估计action value，也不能寻找最优策略

问题1：TD算法在数学上干什么？

回答1：TD算法是在没有模型的情况下解决给定策略 $\pi$ 的贝尔曼公式

$v_\pi(s)=\mathbb{E}[R+\gamma G \mid S=s], \quad s \in \mathcal{S}$

由于 $G$ 是discounted return，所以：
$\mathbb{E}[G \mid S=s]=\sum_a \pi(a \mid s) \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)=\mathbb{E}\left[v_\pi\left(S^{\prime}\right) \mid S=s\right]$
所以最初的式子可以变成（Bellman expectation equation）：
$v_\pi(s)=\mathbb{E}\left[R+\gamma v_\pi\left(S^{\prime}\right) \mid S=s\right], \quad s \in \mathcal{S} .$
使用RM算法进行求解，首先定义：
$g(v(s))=v(s)-\mathbb{E}\left[R+\gamma v_\pi\left(S^{\prime}\right) \mid s\right]$
我们令： $g (v (s)) = 0$

由于我们有 $r$ 和 $s^{'}$ 的采样：
$\begin{aligned} \tilde{g}(v(s)) & =v(s)-\left[r+\gamma v_\pi\left(s^{\prime}\right)\right] \\ & =\underbrace{\left(v(s)-\mathbb{E}\left[R+\gamma v_\pi\left(S^{\prime}\right) \mid s\right]\right)}_{g(v(s))}+\underbrace{\left(\mathbb{E}\left[R+\gamma v_\pi\left(S^{\prime}\right) \mid s\right]-\left[r+\gamma v_\pi\left(s^{\prime}\right)\right]\right)}_\eta . \end{aligned}$
所以RM算法为了解决 $g (v (s)) = 0$ 有：
$\begin{aligned} v_{k+1}(s) & =v_k(s)-\alpha_k \tilde{g}\left(v_k(s)\right) \\ & =v_k(s)-\alpha_k\left(v_k(s)-\left[r_k+\gamma v_\pi\left(s_k^{\prime}\right)\right]\right), \quad k=1,2,3, \ldots \end{aligned}$
$v_k(s)$ 是 $v_\pi(s)$ 在第k步的估计； $r_k, s_k^{\prime}$ 是从 $S^{\prime}$ 采样

✨TD learning 与 MC learning 比较：

在这里插入图片描述

【action value的TD算法（Sarsa）】

目标：给定策略 $\pi$ 估计策略

假设我们有每一时刻的经验 $\left\{\left(s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1}\right)\right\}_t$ . -> Sarsa名字由来（state-action-reward-state-action）
$\begin{aligned} q_{t+1}\left(s_t, a_t\right) & =q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left[r_{t+1}+\gamma q_t\left(s_{t+1}, a_{t+1}\right)\right]\right] \\ q_{t+1}(s, a) & =q_t(s, a), \quad \forall(s, a) \neq\left(s_t, a_t\right) \end{aligned}$
相当于将函数state value变成了action value公式： $V\left(S_t\right) \rightarrow q\left(S_t, a_t\right)$

✨Sarsa 伪代码：

对每个episode：
- 如果当前的状态不是target state
  - 收集经验 $\left(s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1}\right)$
  - 更新q-value： $\begin{aligned} & q_{t+1}\left(s_t, a_t\right)=q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left[r_{t+1}+\right.\right. \left.\left.\gamma q_t\left(s_{t+1}, a_{t+1}\right)\right]\right]\end{aligned}$
  - 更新policy：
    $\begin{aligned} & \pi_{t+1}\left(a \mid s_t\right)=1-\frac{\epsilon}{|\mathcal{A}|}(|\mathcal{A}|-1) \text { if } a=\arg \max _a q_{t+1}\left(s_t, a\right) \\ & \pi_{t+1}\left(a \mid s_t\right)=\frac{\epsilon}{|\mathcal{A}|} \text { otherwise } \end{aligned}$

【action value的TD算法（Expected Sarsa）】

$\begin{aligned} q_{t+1}\left(s_t, a_t\right) & =q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left(r_{t+1}+\gamma \mathbb{E}\left[q_t\left(s_{t+1}, A\right)\right]\right)\right] \\ q_{t+1}(s, a) & =q_t(s, a), \quad \forall(s, a) \neq\left(s_t, a_t\right), \end{aligned}$

其中： $\left.\mathbb{E}\left[q_t\left(s_{t+1}, A\right)\right]\right)=\sum_a \pi_t\left(a \mid s_{t+1}\right) q_t\left(s_{t+1}, a\right) \doteq v_t\left(s_{t+1}\right)$

✨与Sarsa比较：

TD target从 $r_{t+1}+\gamma q_t\left(s_{t+1}, a_{t+1}\right)$ 变到了 $r_{t+1}+\gamma \mathbb{E}\left[q_t\left(s_{t+1}, A\right)\right]$
计算量更大，随机性减少因为采样从 $\left\{s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1}\right\}$ 变到 $\left\{s_t, a_t, r_{t+1}, s_{t+1}\right\}$ .

【action value的TD算法（n-step Sarsa）】

$q_\pi(s, a)=\mathbb{E}\left[G_t \mid S_t=s, A_t=a\right]$

上面是action value的定义，return $G_t$ 的写法可以写成多种样子:
$\begin{aligned} \text { Sarsa } \longleftarrow \quad & G_t^{(1)}=R_{t+1}+\gamma q_\pi\left(S_{t+1}, A_{t+1}\right), \\ & G_t^{(2)}=R_{t+1}+\gamma R_{t+2}+\gamma^2 q_\pi\left(S_{t+2}, A_{t+2}\right),\\ & \vdots \\ \text { n-step Sarsa } \longleftarrow \quad & G_t^{(n)}=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^n q_\pi\left(S_{t+n}, A_{t+n}\right)\\ & \vdots \\ \text { MC } \longleftarrow \quad & G_t^{(\infty)}=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots\\ \end{aligned}$
其中 $G_t=G_t^{(1)}=G_t^{(2)}=G_t^{(n)}=G_t^{(\infty)}$ ，只不过分解的不一样

$G_t^{(1)}$ （Sarsa）：
$q_\pi(s, a)=\mathbb{E}\left[G_t^{(1)} \mid s, a\right]=\mathbb{E}\left[R_{t+1}+\gamma q_\pi\left(S_{t+1}, A_{t+1}\right) \mid s, a\right]$
$G_t^{(\infty)}$ （MC）：
$q_\pi(s, a)=\mathbb{E}\left[G_t^{(\infty)} \mid s, a\right]=\mathbb{E}\left[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ldots \mid s, a\right]$
n-step Sarsa：
$q_\pi(s, a)=\mathbb{E}\left[G_t^{(n)} \mid s, a\right]=\mathbb{E}\left[R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^n q_\pi\left(S_{t+n}, A_{t+n}\right) \mid s, a\right]$

$\begin{aligned} & q_{t+1}\left(s_t, a_t\right)=q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left[r_{t+1}+\gamma r_{t+2}+\cdots+\gamma^n q_t\left(s_{t+n}, a_{t+n}\right)\right]\right] . \end{aligned}$

n=1：该式子就变成了Sarsa
n= $\infty$ ：该式子就变成了MC方法

【optimal action value的TD算法（Q-learning）】

$\begin{aligned} q_{t+1}\left(s_t, a_t\right) & =q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left[r_{t+1}+\gamma \max _{a \in \mathcal{A}} q_t\left(s_{t+1}, a\right)\right]\right], \\ q_{t+1}(s, a) & =q_t(s, a), \quad \forall(s, a) \neq\left(s_t, a_t\right), \end{aligned}$

TD target（Sarsa）： $r_{t+1}+\gamma q_t\left(s_{t+1}, a_{t+1}\right)$
TD target（Q-learning）： $r_{t+1}+\gamma \max _{a \in \mathcal{A}} q_t\left(s_{t+1}, a\right)$

Q-learning解决问题：
$a)=\mathbb{E}\left[R_{t+1}+\gamma \max _a q\left(S_{t+1}, a\right) \mid S_t=s, A_t=a\right], \quad \forall s, a$
解决贝尔曼最优方程

✨on-policy learning && off-policy learning：

behavior policy：和环境进行交互生成experience
target policy：一直更新目标获得最优的策略

on-policy：behavior policy 和 target policy 是一样的，用这个策略和环境进行交互得到这个experience再来改进这个策略，再进行交互（Sarsa、Q-learning）

off-policy：behavior policy 和 target policy 是不一样的，用一个policy去获得大量的经验，然后用这些经验来不断改进这个策略，用那个策略最终会收敛到一个最优策略。（Q-learning）可以从别人的经验直接用

✨Sarsa、MC、Q-learning判别：

Sarsa 是 on-policy：

Sarsa 目标是对于给定策略 $\pi$ 解决一个贝尔曼公式：
$q_\pi(s, a)=\mathbb{E}\left[R+\gamma q_\pi\left(S^{\prime}, A^{\prime}\right) \mid s, a\right], \quad \forall s, a$
其中： $\sim p(R \mid s, a), S^{\prime} \sim p\left(S^{\prime} \mid s, a\right), A^{\prime} \sim \pi\left(A^{\prime} \mid S^{\prime}\right)$
算法：
$q_{t+1}\left(s_t, a_t\right)=q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left[r_{t+1}+\gamma q_t\left(s_{t+1}, a_{t+1}\right)\right]\right]$
$\left(s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1}\right):$
- 如果 $s_t,a_t)$ 给定，则 $r_{t+1}$ 和 $s_{t+1}$ 不依赖于策略而是 $\mid s, a), p\left(s^{\prime} \mid s, a\right)$
- $a_{t+1}$ 依据 $\pi_{t}(s_t+1)$ 不但是behavior policy而且是target policy

MC 是 on-policy：

MC 目标是估计action value：

$q_\pi(s, a)=\mathbb{E}\left[R_{t+1}+\gamma R_{t+2}+\ldots \mid S_t=s, A_t=a\right], \quad \forall s, a$
算法：
$\approx r_{t+1}+\gamma r_{t+2}+\ldots$

Q-learning 是 off-policy：

Q-learning 目标是求解贝尔曼最优公式：
$a)=\mathbb{E}\left[R_{t+1}+\gamma \max _a q\left(S_{t+1}, a\right) \mid S_t=s, A_t=a\right], \quad \forall s, a$
算法：
$q_{t+1}\left(s_t, a_t\right)=q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left[r_{t+1}+\gamma \max _{a \in \mathcal{A}} q_t\left(s_{t+1}, a\right)\right]\right]$
需要： $\left(s_t, a_t, r_{t+1}, s_{t+1}\right)$
- 如果 $\left(s_t, a_t\right)$ 给定则 $r_{t+1}$ 和 $s_{t+1}$ 不依赖策略而是由 $\mid s, a) \quad p\left(s^{\prime} \mid s, a\right)$ 这两个概率决定的

✨Q-learning伪代码（on-policy）：

对每个episode：
- 如果当前的状态不是target state
  - 收集经验 $\left(s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1}\right)$
  - 更新q-value： $\begin{aligned} & q_{t+1}\left(s_t, a_t\right)=q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left[r_{t+1}+\gamma \max _a q_t\left(s_{t+1}, a\right)\right]\right]\end{aligned}$
  - 更新policy：
    $\begin{aligned} & \pi_{t+1}\left(a \mid s_t\right)=1-\frac{\epsilon}{|\mathcal{A}|}(|\mathcal{A}|-1) \text { if } a=\arg \max _a q_{t+1}\left(s_t, a\right) \\ & \pi_{t+1}\left(a \mid s_t\right)=\frac{\epsilon}{|\mathcal{A}|} \text { otherwise } \end{aligned}$

✨Q-learning伪代码（off-policy）：

对于每个episode $\left\{s_0, a_0, r_1, s_1, a_1, r_2, \ldots\right\}$ 生成 $\pi_b$
- 对episode每一步 $\ldots$
- 更新q-value：
  $\begin{aligned} & q_{t+1}\left(s_t, a_t\right)=q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q\left(s_t, a_t\right)-\left[r_{t+1}+\gamma \max _a q_t\left(s_{t+1}, a\right)\right]\right] \end{aligned}$
- 更新target policy：
  $\begin{aligned} & \pi_{T, t+1}\left(a \mid s_t\right)=1 \text { if } a=\arg \max _a q_{t+1}\left(s_t, a\right) \\ & \pi_{T, t+1}\left(a \mid s_t\right)=0 \text { otherwise } \end{aligned}$