强化学习-赵世钰（七）：TD-＞Sarsa-＞n-step Sarsa（on-line）【Sarsa&MC】【求贝尔曼公式】-＞Q-learning（off-line）【PPT】

u013250861

已于 2023-12-11 22:26:16 修改

阅读量370

点赞数 8

文章标签：强化学习

于 2023-11-29 00:29:56 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/134679820

版权

本文介绍了时差分学习(TD)及其在强化学习中的应用，包括Sarsa和Q-learning算法。Sarsa用于估计给定策略的actionvalue，Q-learning则能直接估计最优动作值。文中还讨论了这两种算法的优缺点以及与蒙特卡洛学习的关系。

摘要由CSDN通过智能技术生成

本讲座介绍了时差分（TD）学习，这是强化学习（RL）中最著名的方法之一。

蒙特卡罗（MC）学习是第一种无模型方法。
时差分学习是第二种无模型方法。
相比于蒙特卡罗，时差分具有一些优势。

我们将看到在上一讲中研究的随机逼近方法是如何有用的。

一、Motivating example: stochastic algorithms

$R$ 对应于reward；

$\gamma$ 对应于discount rate；

$v$ 对应于 state value；

$X$ 对应于 state value；

一、TD learning of state values

1、Algorithm description

2、Algorithm properties

最基础的TD算法（公式3）：

只是来估计state value，只是来做policy evaluation这件事情；
它不能来估计action value；
它也不能直接搜索到最优的策略；

3、The idea of the algorithm

TD算法是在没有模型的情况下计算贝尔曼公式。

R表示immediatly Reward，G表示跳到下一步得到的Return；

4、Algorithm convergence

5、Algorithm properties：TD算法与蒙特卡洛算法比较

二、Sarsa【on-policy】（TD learning of action values）

原始Sarsa用于估计一个给定policy（π）的action value（policy evaluation）。

和policy improvement结合就可以进行policy evaluation与policy improvement相互迭代得到求解最优策略的算法。

1、Sarsa – Algorithm【用来计算Action Value】

2、Sarsa – Implementation【与policy improvement结合来寻找最优策略】

关于这个算法的说明：

在更新q(st, at)之后，策略st会立即更新。这基于广义策略迭代的思想。
为了很好地平衡开发和探索，该策略是 $\varepsilon$ -贪婪的，而不是贪婪的。

明确核心思想和复杂性：

核心思想很简单：即使用算法解决给定策略的贝尔曼方程。
复杂性出现在我们试图找到最优策略并高效工作时。

3、Sarsa – Examples

4、Sarsa变形01：Expected Sarsa

5、Sarsa变形02：n-step Sarsa

Sarsa只需要一步的数据，就更新，所以说是实时的；
MC需要等到一个episode的数据搜集结束再更新，所以也是offline的；
n-step Sarsa折中，需要n步的数据；

由于n步Sarsa包含Sarsa和MC学习作为两种极端情况，其性能是Sarsa和MC学习的混合：

如果n很大，其性能接近MC学习，因此具有较大的方差但较小的偏差。
如果n很小，其性能接近Sarsa，因此由于初始猜测而具有相对较大的偏差和相对较低的方差。
最后，n步Sarsa也用于策略评估。它可以与策略改进步骤结合，以搜索最优策略。

三、Q-learning【oﬀ-policy】

直接估计optimal action values，不需要进行policy evaluation和policy improvement相互迭代计算来找最优策略。

接下来，我们介绍Q-learning，这是最广泛使用的强化学习算法之一。

Sarsa可以估计给定策略的动作值。它必须与策略改进步骤结合，以找到最优策略。
Q-learning可以直接估计最优动作值，从而找到最优策略。

1、Q-learning – Algorithm【求解一个贝尔曼最优方程】

求解一个贝尔曼最优方程。

2、Oﬀ-policy vs on-policy

在深入研究Q-learning之前，我们首先介绍两个重要的概念：基于策略学习和离策略学习。在TD学习任务中存在两种策略：

行为策略用于生成经验样本。
目标策略不断朝着最优策略进行更新。

Oﬀ-policy vs on-policy：

当行为策略与目标策略相同时，这种学习称为on-policy。
当它们不同的时候，学习被称为Oﬀ-policy。

oﬀ-policy learning的优势：

它可以基于由任何其他策略生成的经验样本搜索最优策略。
作为一个重要的特殊情况，行为策略可以选择为探索性的。例如，如果我们想要估计所有状态-动作对的动作值，我们可以使用一个探索性策略生成访问每个状态-动作对足够多次的轨迹。

如何判断一个时序差分（TD）算法是同策略还是离策略？

首先，数学上检查算法的实现。
其次，检查实施算法需要哪些条件。

这值得特别注意，因为对初学者来说，这是最令人困惑的问题之一。

3、Q-learning – Implementation

3.1 on-policy version

3.2 oﬀ-policy version

4、Q-learning – Examples

探索性下降到0.5，得到的结果变差。 $\varepsilon = 0.5$

探索性下降到0.1，得到的结果更差。 $\varepsilon = 0.1$

四、TD算法统一公式（A uniﬁed point of view）

u013250861

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
强化学习-赵世钰（七）：TD-＞Sarsa-＞n-step Sarsa（on-line）【Sarsa&MC】【求贝尔曼公式】-＞Q-learning（off-line）【PPT】

本讲座介绍了时差分（TD）学习，这是强化学习（RL）中最著名的方法之一。我们将看到在上一讲中研究的随机逼近方法是如何有用的。
复制链接

扫一扫