Chapter 7. n-step Bootstrapping

最新推荐文章于 2023-04-21 08:16:42 发布

lh15123as

最新推荐文章于 2023-04-21 08:16:42 发布

阅读量213

点赞数

分类专栏： RL 文章标签： RL

本文链接：https://blog.csdn.net/lh15123as/article/details/100560939

版权

RL 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

7.1 n-step TD Prediction

输入：策略 : $\pi$
算法参数：步长 $\alpha \in (0,1]$ ，正整数 $n$
对 $\in \mathcal{S}$ ，任意初始化 $V (s)$
所有存储和访问操作（对于 $S_t$ 和 $R_t$ ）都可以使其索引 $m o d n + 1$
对每个回合循环：
初始化并存储 $S_0 \ne$ 终点
$\leftarrow \infty$
对 $\ldots$ 循环：
如果 $t < T$ ，则：
根据 $\pi(\cdot|S_t)$ 采取行动
观察并将下一个奖励存储为 $R_{t+1}$ ，将下一个状态存储为 $S_{t+1}$
如果 $S_{t+1}$ 是终点，则 $\leftarrow t+1$
$\tau \leftarrow t - n + 1$ （ $\tau$ 是状态估计正在更新的时间）
如果 $\tau \geq 0$ ：
$\leftarrow \sum_{i=\tau+1}^{\min (\tau+n, T)} \gamma^{i-\tau-1} R_{i}$
如果 $\tau + n < T$ ，则 $\leftarrow G+\gamma^{n} V\left(S_{\tau+n}\right)$
$V\left(S_{\tau}\right) \leftarrow V\left(S_{\tau}\right)+\alpha\left[G-V\left(S_{\tau}\right)\right]$ $\quad\quad\quad$ $\left(G_{\tau : \tau+n}\right)$
直到 $\tau = T - 1$

7.2 n-step Sarsa

对所有 $s\in\mathcal(S)$ ， $a\in\mathcal(A)$ ，任意初始化 $Q (s, a)$
初始化 $\pi$ 关于 $Q$ 或固定的给定策略为 $\varepsilon$ -贪婪
算法参数：步长 $\alpha \in (0,1]$ ，小 $\varepsilon > 0$ ，正整数 $n$
所有存储和访问操作（对于 $S_t$ ， $A_t$ 和 $R_t$ ）都可以使其索引 $m o d n + 1$
对每个回合循环：
初始化并存储 $S_0 \ne$ 终点
选择并存储动作 $A_{0} \sim \pi\left(\cdot | S_{0}\right)$
$\leftarrow \infty$
对 $\ldots$ 循环：
如果 $t < T$ ，则：
采取行动 $A_t$
观察并将下一个奖励存储为 $R_{t+1}$ ，将下一个状态存储为 $S_{t+1}$
如果 $S_{t+1}$ 是终点，则 $\leftarrow t+1$
否则：
选择并存储动作 $A_{t+1} \sim \pi\left(\cdot | S_{t=1}\right)$
$\tau \leftarrow t - n + 1$ （ $\tau$ 是状态估计正在更新的时间）
如果 $\tau \geq 0$ ：
$\leftarrow \sum_{i=\tau+1}^{\min (\tau+n, T)} \gamma^{i-\tau-1} R_{i}$
如果 $\tau + n < T$ ，则 $\leftarrow G+\gamma^{n} Q\left(S_{\tau+n}, A_{\tau+n}\right)$ $\quad\quad\quad$ $\left(G_{\tau : \tau+n}\right)$
$Q\left(S_{\tau}, A_{\tau}\right) \leftarrow Q\left(S_{\tau}, A_{\tau}\right)+\alpha\left[G-Q\left(S_{\tau}, A_{\tau}\right)\right]$
如果 $\pi$ 正在被学习，那么确保 $\pi\left(\cdot | S_{\tau}\right)$ 是关于 $Q$ $\varepsilon$ -贪婪
直到 $\tau = T - 1$

7.3 n-step Off-policy Learning by Importance Sampling

输入：对所有 $s\in\mathcal(S)$ ，一个任意的行为策略 $b$ 使得 $b (a ∣ s) > 0$
对所有 $s\in\mathcal(S)$ ， $a\in\mathcal(A)$ ，任意初始化 $Q (s, a)$
初始化 $\pi$ 关于 $Q$ 或固定的给定策略为贪婪
算法参数：步长 $\alpha \in (0,1]$ ，正整数 $n$
所有存储和访问操作（对于 $S_t$ ， $A_t$ 和 $R_t$ ）都可以使其索引 $m o d n + 1$
对每个回合循环：
初始化并存储 $S_0 \ne$ 终点
选择并存储动作 $A_{0} \sim \pi\left(\cdot | S_{0}\right)$
$\leftarrow \infty$
对 $\ldots$ 循环：
如果 $t < T$ ，则：
采取行动 $A_t$
观察并将下一个奖励存储为 $R_{t+1}$ ，将下一个状态存储为 $S_{t+1}$
如果 $S_{t+1}$ 是终点，则
$\leftarrow t+1$
否则：
选择并存储动作 $A_{t+1} \sim \pi\left(\cdot | S_{t=1}\right)$
$\tau \leftarrow t - n + 1$ （ $\tau$ 是状态估计正在更新的时间）
如果 $\tau \geq 0$ ：
$\rho \leftarrow \prod_{i=\tau+1}^{\min (\tau+n-1, T-1)} \frac{\pi\left(A_{i} | S_{i}\right)}{b\left(A_{i} | S_{i}\right)}$ $\quad\quad\quad$ $\left(\rho_{\tau}+1 : t+n-1\right)$
$\leftarrow \sum_{i=\tau+1}^{\min (\tau+n, T)} \gamma^{i-\tau-1} R_{i}$
如果 $\tau + n < T$ ，则 $\leftarrow G+\gamma^{n} Q\left(S_{\tau+n}, A_{\tau+n}\right)$ $\quad\quad\quad$ $\left(G_{\tau : \tau+n}\right)$
$Q\left(S_{\tau}, A_{\tau}\right) \leftarrow Q\left(S_{\tau}, A_{\tau}\right)+\alpha \rho\left[G-Q\left(S_{\tau}, A_{\tau}\right)\right]$
如果 $\pi$ 正在被学习，那么确保 $\pi\left(\cdot | S_{\tau}\right)$ 是关于 $Q$ 贪婪
直到 $\tau = T - 1$