Chapter 6. Temporal-Difference Learning

最新推荐文章于 2021-02-01 17:53:15 发布

lh15123as

最新推荐文章于 2021-02-01 17:53:15 发布

阅读量104

点赞数

分类专栏： RL 文章标签： RL

本文链接：https://blog.csdn.net/lh15123as/article/details/100557354

版权

RL 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

6.1 TD Prediction

表格TD(0)估计 : $v_\pi$
输入：要评估策略 : $\pi$
算法参数：步长 : $\alpha\in (0,1]$
对所有 : $\in \mathbb{S}^{+}$ ，除了 : $V (终点) = 0$ ，任意初始化 : $V (s)$
对每个回合循环：
初始化 : $S$
对回合的每一步循环：
$\leftarrow$ 由 $\pi$ 给出 $S$ 的动作
采取动作 $A$ ，观察 $R$ ， $S^{\prime}$
$\leftarrow V(S)+\alpha\left[R+\gamma V(S^{\prime})-V(S)\right]$
$\leftarrow S^{\prime}$
直到 $S$ 是终点

6.4 Sarsa: On-policy TD Control

算法参数：步长 : $\alpha \in (0,1]$ ，小值 : $\varepsilon > 0$
对所有 : $\in \mathcal(S)^+$ ， $\in \mathcal(A)(s)$ ，任意初始 $Q (s, a)$ ，除了 $\cdot)=0$
对每一个回合循环：
初始化 : $S$
使用从 : $Q$ 派生的策略从 $S$ 中选择 $A$ （例如， $\varepsilon$ -贪婪）
对回合的每一步循环：
采取动作 : $A$ ，观察 : $R$ , $S^{\prime}$ 使用从 $Q$ 派生的策略从 $S^{\prime}$ 中选择 $A^{\prime}$ （例如， $\varepsilon$ -贪婪）
$\leftarrow Q(S, A)+\alpha\left[R+\gamma Q\left(S^{\prime}, A^{\prime}\right)-Q(S, A)\right]$
$\leftarrow S^{\prime}$ ； $\leftarrow A^{\prime}$ ；
直到 $S$ 是终点

6.5 Q-learning: Off-policy TD Control

算法参数：步长 : $\alpha \in (0,1]$ ，小值 : $\varepsilon > 0$
对所有 : $\in \mathcal(S)^+$ ， $\in \mathcal(A)(s)$ ，任意初始 $Q (s, a)$ ，除了 $\cdot)=0$
对每一个回合循环：
初始化 $S$
对回合的每一步循环：
使用从 $Q$ 派生的策略从 $S$ 中选择 $A$ （例如， $\varepsilon$ -贪婪）
采取动作 $A$ ，观察 $R$ , $S^{\prime}$
$\leftarrow Q(S, A)+\alpha\left[R+\gamma \max _{a} Q\left(S^{\prime}, a\right)-Q(S, A)\right]$
$\leftarrow S^{\prime}$
直到 $S$ 是终点