斯坦福CS234——(4)无模型控制

本文介绍了斯坦福大学CS234课程中关于强化学习的广义策略评估、探索与利用的平衡(GLIE)、蒙特卡洛控制方法以及Q-learning的初始化策略,强调了最大化偏差和Jensen不等式的概念,特别提到了双Q-learning的应用。
摘要由CSDN通过智能技术生成

在这里插入图片描述

Introduction

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Generalized Policy Iteration(广义策略评估)

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Importance of Exploration(探索的重要性)

在这里插入图片描述
在这里插入图片描述
以概率 ε 选择一个随机动作,这样智能体就能够进行探索,尝试未知的动作,以便更好地了解环境。
以概率 1-ε 选择当前被认为最佳的动作,即具有最高估计值的动作,这样智能体就能够进行利用,利用当前已知的最优动作来最大化长期奖励。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GLIE 表示 “Greedy in the Limit with Infinite Exploration”,即在无限探索的极限下贪婪。GLIE 是一种保证强化学习算法收敛到最优解的条件之一。在 GLIE 策略中,随着时间的推移,探索的概率会逐渐减小,而贪婪行为的概率会逐渐增加。

具体来说,GLIE 条件要求:

1.在探索率(Exploration Rate)趋近于零的情况下,智能体会以贪婪策略行动。这意味着在训练的晚期,智能体更多地采用已知的最佳策略,以获得长期收益的最大化。

2.在探索率趋近于零的同时,智能体仍会以一定的概率进行探索,以确保对环境的全面了解。这保证了智能体不会完全放弃探索,即使在贪婪行为的主导下,仍然能够发现新的行动策略。

通过 GLIE 条件,强化学习算法能够在保证对环境进行足够探索的同时,逐渐地趋近于贪婪最优策略。这有助于算法在有限时间内收敛到最优解,同时保持对环境的探索和学习能力。

Monte Carlo Control

在这里插入图片描述
在这里插入图片描述

Temporal Difference Methods for Control

在这里插入图片描述

SARSA

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Q-Learning

在这里插入图片描述
在这里插入图片描述
Q-learning 的初始化是非常重要的,它可以影响算法的收敛性、性能和稳定性。初始化的方式可以直接影响到算法在训练过程中的表现,因此需要谨慎选择。

在 Q-learning 中,通常会初始化状态-动作值函数(Q 函数)。这些初始化的值可以影响智能体在学习过程中的行为。一些常见的初始化策略包括:

1.零初始化:将所有状态-动作对的 Q 值初始化为零。这是一种简单的初始化方法,但可能会导致智能体在开始阶段无法获得有用的信息,因为所有动作的 Q 值都相同。

2.随机初始化:将所有状态-动作对的 Q 值初始化为随机数。这种方法可以为智能体提供更多的初始信息,有助于更快地探索状态空间。但是,随机初始化可能导致训练过程中的不稳定性,因为初始值的选择可能会影响算法的收敛性。

3.根据经验初始化:有时候,可以根据先验知识或领域专家的建议来初始化 Q 函数。这种方法可以提供有用的初始信息,有助于加速训练过程和提高算法的性能。

4.近似初始化:使用其他方法(如神经网络)来近似 Q 函数,并根据网络的初始权重来初始化。这种方法通常用于深度 Q-learning(DQN)等方法中,可以利用神经网络的初始化技巧来提高算法的收敛性和性能。

总的来说,Q-learning 的初始化是一个重要的超参数,需要根据具体的问题和算法特性来选择合适的初始化方法。一个好的初始化策略可以帮助算法更快地收敛到最优解,提高学习的效率和稳定性。
在这里插入图片描述

Maximization Bias(最大化偏差)

在这里插入图片描述
(这里,我们假设动作空间是连续的)
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Jensen不等式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(查了一下,下面的应该才是double Q-learning)

  • 16
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值