n-step Bootstrapping

最新推荐文章于 2024-07-08 22:12:26 发布

胧月夜い

最新推荐文章于 2024-07-08 22:12:26 发布

阅读量158

点赞数

文章标签：算法强化学习概率论

本文链接：https://blog.csdn.net/qq_46013251/article/details/119761450

版权

本文详细介绍了n-步TD预测、Sarsa及其扩展，探讨了n-步更新在强化学习中的应用，包括off-policy学习和无重要性采样的树备份算法，以及统一的n-步Q(σ)算法，揭示了它们在更新目标和误差减少方面的特性。

摘要由CSDN通过智能技术生成

n-步引导

n-步 TD 预测
n-步 Sarsa
n-步 $\text{Off-policy}$ 学习
具有控制变量的 $\text{per-decision}$ 方法
无重要性采样的 $\text{off-policy}$ 学习：n-步树备份算法
统一算法：n-步 $Q(\sigma)$
参考

n-步 TD 预测

考虑使用策略 $\pi$ 生成样本回合估计 $v_\pi$ ，蒙特卡洛法基于从该状态直到回合结束生成的完整的奖励序列来更新每个状态
而一步 TD 法，基于下一个奖励，从一步之后的状态的价值进行引导，作为剩余价值的代理
一种中间的方法是，基于中间数量的奖励：超过一个，但少于直到结束前的所有，来完成更新
例如，两步更新法，将会基于前两个奖励以及两个时间步之后的状态的估计值，来完成更新

使用 n-步更新的方法仍是 TD 法，因为它们仍然基于之前的估计值和稍后的估计值的变化来更新之前的估计值，只不过这个 “稍后” 不仅仅是一步之后，而是 n 步之后
这种将时序差分延伸到 n 步的就叫作 n-步 TD 法

考虑对状态 $S_t$ 的估计值的更新，其作为状态-奖励序列的结果：
$S_t, R_{t+1}, S_{t+1}, R_{t+2}, \dots , R_T, S_T$ （省略动作）
我们知道，蒙特卡洛法更新 $v_\pi(S_t)$ 基于完整的回报：
$G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots + \gamma^{T-t-1} R_T$
将这个量叫作更新的目标
在蒙特卡洛法里，更新的目标是回报，而一步更新中，目标是第一次奖励加上下一个状态的估计值的折扣，我们叫作一步回报：
$G_{t:t+1} \doteq R_{t+1} + \gamma V_t (S_{t+1})$
其中 $V_t : \mathcal{S} \to \mathbb{R}$ 在这里是指 $v_\pi$ 在时间 $t$ 的估计值

$G_{t:t+1}$ 的下标表示它是时间 $t$ 的截断回报，使用直到时间 $t + 1$ 的奖励，用折扣估计 $\gamma V_t(S_{t+1})$ 代替其他项： $\gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots + \gamma^{T-t-1} R_T$ 的完全回报
因此，两步更新的目标是两步回报：
$G_{t:t+2} \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 V_{t+1} (S_{t+2})$
这里 $\gamma^2 V_{t+1}(S_{t+2})$ 纠正了项： $\gamma^2 R_{t+3} + \gamma^3 R_{t+4} + \cdots + \gamma^{T-t-1} R_T$ 的缺失

类似地，任意 n-步更新的目标是 n-步回报：
$G_{t:t+n} \doteq R_{t+1} + \gamma R_{t+2} + \cdots + \gamma^{n-1} R_{t+n} + \gamma^n V_{t+n-1} (S_{t+n})$
对所有的 $n, t$ ，使： $\geqslant 1$ 和 $\leqslant t < T - n$
所有 n-步回报可以被认为是对全回报的近似，在 n-步之后被截断并对剩余缺失的项用 $V_{t+n-1}(S_{t+n})$ 来纠正
如果 $\geqslant T$ （n-步回报超过了终止点），那么所有缺失的项被当作为零，因此 n-步回报和原始全回报等同： $(G_{t:t+n} \doteq G_t \quad \text{if} \ t+n \geqslant T)$

注意，对于 $n > 1$ 的 n-步回报，涉及到在从 $t$ 转移到 $t + 1$ 还未知的，未来的奖励和状态
在直到得到 $R_{t+n}$ 和计算出 $V_{t+n-1}$ 之前，没有算法能够使用 n-步回报，而第一次能够计算这些是在时间点 $t + n$
因此，一个为了使用 n-步回报的自然状态-价值学习算法是：
$V_{t+n}(S_t) \doteq V_{t+n-1} (S_t) + \alpha [G_{t:t+n} - V_{t+n-1} (S_t)] \ , \quad 0 \leqslant t < T$
而所有其他状态的价值保持不变：对于所有 $\not = S_t$ ，有

最低0.47元/天解锁文章

胧月夜い

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
n-step Bootstrapping

n-步引导n-步 TD 预测n-步 Sarsan-步 Off-policy\text{Off-policy}Off-policy 学习具有控制变量的 per-decision\text{per-decision}per-decision 方法无重要性采样的 off-policy\text{off-policy}off-policy 学习：n-步树备份算法统一算法：n-步 Q(σ)Q(\sigma)Q(σ)参考n-步 TD 预测考虑使用策略 π\piπ 生成样本回合估计 vπv_\pivπ，蒙特卡洛法基
复制链接

扫一扫