斯坦福CS234——（4）无模型控制

qq_43675321

已于 2024-02-24 15:18:32 修改

阅读量856

点赞数 16

分类专栏： CS234增强学习文章标签：学习

于 2024-02-24 15:06:36 首次发布

本文链接：https://blog.csdn.net/qq_43675321/article/details/136243701

版权

CS234增强学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文介绍了斯坦福大学CS234课程中关于强化学习的广义策略评估、探索与利用的平衡（GLIE）、蒙特卡洛控制方法以及Q-learning的初始化策略，强调了最大化偏差和Jensen不等式的概念，特别提到了双Q-learning的应用。

摘要由CSDN通过智能技术生成

在这里插入图片描述

Introduction

在这里插入图片描述

Generalized Policy Iteration（广义策略评估）

在这里插入图片描述

Importance of Exploration（探索的重要性）

在这里插入图片描述

以概率 ε 选择一个随机动作，这样智能体就能够进行探索，尝试未知的动作，以便更好地了解环境。
以概率 1-ε 选择当前被认为最佳的动作，即具有最高估计值的动作，这样智能体就能够进行利用，利用当前已知的最优动作来最大化长期奖励。
在这里插入图片描述

GLIE 表示 “Greedy in the Limit with Infinite Exploration”，即在无限探索的极限下贪婪。GLIE 是一种保证强化学习算法收敛到最优解的条件之一。在 GLIE 策略中，随着时间的推移，探索的概率会逐渐减小，而贪婪行为的概率会逐渐增加。

具体来说，GLIE 条件要求：

1.在探索率（Exploration Rate）趋近于零的情况下，智能体会以贪婪策略行动。这意味着在训练的晚期，智能体更多地采用已知的最佳策略，以获得长期收益的最大化。

2.在探索率趋近于零的同时，智能体仍会以一定的概率进行探索，以确保对环境的全面了解。这保证了智能体不会完全放弃探索，即使在贪婪行为的主导下，仍然能够发现新的行动策略。

通过 GLIE 条件，强化学习算法能够在保证对环境进行足够探索的同时，逐渐地趋近于贪婪最优策略。这有助于算法在有限时间内收敛到最优解，同时保持对环境的探索和学习能力。

Monte Carlo Control

在这里插入图片描述

Temporal Difference Methods for Control

在这里插入图片描述

SARSA

在这里插入图片描述

Q-Learning

在这里插入图片描述

Q-learning 的初始化是非常重要的，它可以影响算法的收敛性、性能和稳定性。初始化的方式可以直接影响到算法在训练过程中的表现，因此需要谨慎选择。

在 Q-learning 中，通常会初始化状态-动作值函数（Q 函数）。这些初始化的值可以影响智能体在学习过程中的行为。一些常见的初始化策略包括：

1.零初始化：将所有状态-动作对的 Q 值初始化为零。这是一种简单的初始化方法，但可能会导致智能体在开始阶段无法获得有用的信息，因为所有动作的 Q 值都相同。

2.随机初始化：将所有状态-动作对的 Q 值初始化为随机数。这种方法可以为智能体提供更多的初始信息，有助于更快地探索状态空间。但是，随机初始化可能导致训练过程中的不稳定性，因为初始值的选择可能会影响算法的收敛性。

3.根据经验初始化：有时候，可以根据先验知识或领域专家的建议来初始化 Q 函数。这种方法可以提供有用的初始信息，有助于加速训练过程和提高算法的性能。

4.近似初始化：使用其他方法（如神经网络）来近似 Q 函数，并根据网络的初始权重来初始化。这种方法通常用于深度 Q-learning（DQN）等方法中，可以利用神经网络的初始化技巧来提高算法的收敛性和性能。

总的来说，Q-learning 的初始化是一个重要的超参数，需要根据具体的问题和算法特性来选择合适的初始化方法。一个好的初始化策略可以帮助算法更快地收敛到最优解，提高学习的效率和稳定性。
在这里插入图片描述

Maximization Bias（最大化偏差）

在这里插入图片描述
（这里，我们假设动作空间是连续的）

在这里插入图片描述

Jensen不等式

在这里插入图片描述

（查了一下，下面的应该才是double Q-learning）

qq_43675321

关注

16
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
斯坦福CS234——（4）无模型控制

在 GLIE 策略中，随着时间的推移，探索的概率会逐渐减小，而贪婪行为的概率会逐渐增加。但是，随机初始化可能导致训练过程中的不稳定性，因为初始值的选择可能会影响算法的收敛性。总的来说，Q-learning 的初始化是一个重要的超参数，需要根据具体的问题和算法特性来选择合适的初始化方法。2.在探索率趋近于零的同时，智能体仍会以一定的概率进行探索，以确保对环境的全面了解。这是一种简单的初始化方法，但可能会导致智能体在开始阶段无法获得有用的信息，因为所有动作的 Q 值都相同。（这里，我们假设动作空间是连续的）
复制链接

扫一扫

专栏目录