斯坦福CS234增强学习——(4)无模型控制
Introduction
Generalized Policy Iteration(广义策略评估)
Importance of Exploration(探索的重要性)
以概率 ε 选择一个随机动作,这样智能体就能够进行探索,尝试未知的动作,以便更好地了解环境。
以概率 1-ε 选择当前被认为最佳的动作,即具有最高估计值的动作,这样智能体就能够进行利用,利用当前已知的最优动作来最大化长期奖励。
GLIE 表示 “Greedy in the Limit with Infinite Exploration”,即在无限探索的极限下贪婪。GLIE 是一种保证强化学习算法收敛到最优解的条件之一。在 GLIE 策略中,随着时间的推移,探索的概率会逐渐减小,而贪婪行为的概率会逐渐增加。
具体来说,GLIE 条件要求:
1.在探索率(Exploration Rate)趋近于零的情况下,智能体会以贪婪策略行动。这意味着在训练的晚期,智能体更多地采用已知的最佳策略,以获得长期收益的最大化。
2.在探索率趋近于零的同时,智能体仍会以一定的概率进行探索,以确保对环境的全面了解。这保证了智能体不会完全放弃探索,即使在贪婪行为的主导下,仍然能够发现新的行动策略。
通过 GLIE 条件,强化学习算法能够在保证对环境进行足够探索的同时,逐渐地趋近于贪婪最优策略。这有助于算法在有限时间内收敛到最优解,同时保持对环境的探索和学习能力。
Monte Carlo Control
Temporal Difference Methods for Control
SARSA
Q-Learning
Q-learning 的初始化是非常重要的,它可以影响算法的收敛性、性能和稳定性。初始化的方式可以直接影响到算法在训练过程中的表现,因此需要谨慎选择。
在 Q-learning 中,通常会初始化状态-动作值函数(Q 函数)。这些初始化的值可以影响智能体在学习过程中的行为。一些常见的初始化策略包括:
1.零初始化:将所有状态-动作对的 Q 值初始化为零。这是一种简单的初始化方法,但可能会导致智能体在开始阶段无法获得有用的信息,因为所有动作的 Q 值都相同。
2.随机初始化:将所有状态-动作对的 Q 值初始化为随机数。这种方法可以为智能体提供更多的初始信息,有助于更快地探索状态空间。但是,随机初始化可能导致训练过程中的不稳定性,因为初始值的选择可能会影响算法的收敛性。
3.根据经验初始化:有时候,可以根据先验知识或领域专家的建议来初始化 Q 函数。这种方法可以提供有用的初始信息,有助于加速训练过程和提高算法的性能。
4.近似初始化:使用其他方法(如神经网络)来近似 Q 函数,并根据网络的初始权重来初始化。这种方法通常用于深度 Q-learning(DQN)等方法中,可以利用神经网络的初始化技巧来提高算法的收敛性和性能。
总的来说,Q-learning 的初始化是一个重要的超参数,需要根据具体的问题和算法特性来选择合适的初始化方法。一个好的初始化策略可以帮助算法更快地收敛到最优解,提高学习的效率和稳定性。
Maximization Bias(最大化偏差)
(这里,我们假设动作空间是连续的)
Jensen不等式
(查了一下,下面的应该才是double Q-learning)