Classification of RL Methods
preface
术语"强化学习"指的是一类问题和一组计算方法。从历史上看,只有试图解决随机决策问题的一些计算方法才被称为强化学习算法;例如,Q-Learning被认为是强化学习,但动态规划通常不被视为强化学习。事实上,强化学习问题的定义覆盖了广泛的决策和控制问题,包括离散时间或连续时间、线性或非线性、确定性或随机性、无限时域或有限时域、平均回报或折扣回报,以及受约束任务或非受约束任务。强化学习的原理是为动态环境搜索一个最佳策略,以最大化或最小化预定义的性能指标。从数学上讲,它与最优控制问题的形式化非常相似。
注:
Q-Learning是强化学习中一种著名的无模型算法,用于求解马尔可夫决策过程中的最优策略。它的主要特点包括:
1.无需事先了解环境的转移概率模型,仅通过和环境不断试探交互来学习。
2.离线方式,利用累积的经验数据不断更新状态-行为值函数Q(s,a)。
3.基于价值迭代的思想,通过不断更新Q值逼近最优Q函数。
4.兼顾探索和利用,在学习初期多尝试(探索),后期则利用累积的经验(利用)。
Q-Learning算法的核心是通过以下迭代公式不断修正Q函数的估计值:
Q(s,a) <- Q(s,a) + α[r + γ* max(Q(s’,a’)) - Q(s,a)]
其中:
r为立即奖励
γ为折扣因子
α为学习率
这个公式体现了两部分:立即奖励加上折扣后的最优futureQ值。
Q-Learning算法简单高效、收敛性很好,可用于解决离散有限状态的最优控制问题。但在面对连续状态和动作空间时,需要函数逼近等技巧加以扩展。
无模型算法(Model-Free Algorithm)是指在强化学习中,智能体不需要事先知道环境的转移概率模型(状态转移函数和奖励函数),而是通过在环境中进行试探性交互,从采样的经验数据中直接学习出最优策略或价值函数估计。
Definition of RL Problems
目标函数和期望回报之间的术语差异可能会让人感兴趣。目标函数是一个标量性能指标,人们希望将其最小化或最大化,这是一个更加通用的术语。相比之下,期望回报是初始状态的一个函数,表示以期望形式求和的奖励信号。确切地说,大多数期望回报的定义都不能被视为性能指标,因为它们实际上不是标量。在文献中,还有两个其他术语,即成本函数和损失函数,其含义类似于目标函数。成本函数一词在最优控制中很常见,而损失函数一词通常用于统计学习领域。此外,成本函数通常指的是在时间范围内对奖励或效用函数求和,而损失函数通常与已知真实值或目标值的数据点相关联。
强化学习的正式定义是一类寻求最大化或最小化状态值函数加权期望值的策略搜索算法。在不失一般性的情况下,我们以离散时间和随机任务为例。一个标准的面向目标的序列决策或最优控制问题在数学上被定义为:
max / min J ( π ) = E s ∼ d init ( s ) [ v π ( s ) ] , \max / \min J(\pi) = \mathbb{E}_{s \sim d_{\text{init}}(s)} [v^\pi (s)], max/minJ(π)=Es∼dinit(s)[vπ(s)],
受制于
( 1 ) Pr { ξ t + 1 = s ′ ∣ ξ t = s , a t = a } = p s s ′ a , (1) \Pr \{ \xi_{t+1} = s' | \xi_t = s, a_t = a \} = p^{a}_{ss'}, (1)Pr{
ξt+1=s′∣ξt=s,at=a}=pss′a,
或者
( 2 ) D = { ξ 0 , a 0 , ξ 1 , a 1 , ξ 2 , a 2 , … , ξ t , a t , ξ t + 1 , a t + 1 , … } , a ∈ A , s ∈ S , (2) \mathcal{D} = \{ \xi_0, a_0, \xi_1, a_1, \xi_2, a_2, \ldots, \xi_t, a_t, \xi_{t+1}, a_{t+1}, \ldots \}, a \in \mathcal{A}, s \in \mathcal{S}, (2)D={
ξ0,a0,ξ1,a1,ξ2,a2,…,ξt,at,ξt+1,at+1,…},a∈A,s∈