深度强化学习简要概述(A brief Survey of deep reinforcement learning)-CSDN博客

本文链接：https://blog.csdn.net/KyrieHe/article/details/79504481

本文介绍了深度强化学习（DRL）的基本概念和发展历程，探讨了DRL如何通过深度学习技术解决高维问题，并概述了基于价值函数和策略搜索的主要算法。文章还讨论了DRL在视频游戏、机器人控制及自然语言处理等领域的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度强化学习简要概述

作者：Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath

paper地址: A brief Survey of deep reinforcement learning

摘要

深度强化学习（DRL）将为人工智能领域带来革命性的变化，并代表着朝向构建对视觉世界有更高层次理解的自治系统迈出的一步。目前，深度学习使得强化学习能够扩展到以前难以解决的问题，例如直接从像素学习玩视频游戏（比如DQN玩Atari游戏）。深度强化学习算法也应用于机器人技术，允许机器人的控制策略直接从现实世界的摄像头输入中学习。在本次调查中，我们首先介绍强化学习的通用领域，然后介绍基于价值（value-based）和基于策略（policy-based）的主流方法。我们的调查将涵盖深入强化学习中的核心算法，包括deep Q-network，TRPO和A3C算法。同时，我们强调深度神经网络的独特优势，重点在于通过强化学习的视觉理解。总而言之，我们描述了几个当前的研究领域。

1. 介绍（Introduction）

人工智能（AI）领域的主要目标之一是生成完全自主的智能体（agent），与他们的环境（env）进行交互以学习最佳行为，并通过反复试验来逐步提高。制作反应灵敏且能够有效学习的人工智能系统一直是一个长期的挑战，从可以感知和反应周围世界的机器人到纯粹基于软件的代理，可以与自然语言和多媒体互动。一个有经验的自主学习的原理性数学框架是强化学习（RL）[135]。尽管RL在过去取得了一些成功[141,129,62,93]，先前的方法缺乏可扩展性，并且本质上局限于相当低维的问题。这些限制的存在是因为RL算法与其他算法具有相同的复杂度：内存复杂度，计算复杂度，以及机器学习算法中的样本复杂度[133]。我们近年来见证了深度学习的兴起，依靠强大的函数逼近和深度神经网络的表示学习性质，为我们提供了克服这些问题的新工具。

深度学习的出现已经在机器学习的许多领域产生了重大影响，极大地推进了如目标检测，语音识别和语言翻译等任务最新技术的发展[70]。深度学习最重要的特性是深度神经网络可以自动找到高维数据（例如图像，文本和音频）的简要低维表示（特征）。通过将神经网络结构（特别是分层表示）的归纳偏差制造出来，机器学习从业者在解决维数灾难方面取得了有效的进展[15]。深度学习同样加速了RL的进展，RL内部使用深度学习算法来定义“深度强化学习”（DRL）领域。这次调查的目的是要涵盖DRL的开创性和最新发展，传达了神经网络可以用来使我们更接近发展中的自主代理人的创新方式。为了对DRL最近的工作进行更全面的调查，包括DRL在自然语言处理等领域的应用[106，5]，我们向读者介绍Li [78]的概述。

深度学习使RL能够扩展到以前难以处理的决策问题，即具有高维度状态和动作空间的环境。在DRL领域近期的工作中，有两个杰出的成功案例。首先，开创DRL革命的是DeepMind团队开发的一种可以直接输入原始图像像素并且可以从中学习的算法，它们（指智能体agent）玩Atari 2600游戏集水平远高于人类玩家。这为RL中函数逼近技术的不稳定性提供了解决方案，这项工作是第一个令人信服地证明RL代理可以仅基于奖励信号就可以在原始高维观测集上进行训练。第二个突出的成果是（还是DeepMind）开发了混合DRL系统AlphaGo，它击败了围棋Go [128]中的人类世界冠军，可与IBM深蓝在二十年前的国际象棋比赛中取得的历史性成就[19]和IBM旗下Watson DeepQA系统击败最好的人类选手[31]相提并论。与主导国际象棋系统的手工制作规则不同，AlphaGo由神经网络组成，这些神经网络使用监督学习和强化学习进行训练，并结合传统的启发式搜索算法。

DRL算法已经被应用于各种各样的问题中，例如机器人技术，其中机器人的控制策略现在可以直接从现实世界中的摄像机输入中学习[74,75]，后来的控制器曾经是手工设计的，或者是从机器人状态的低维特征中学习的。 DRL已经被用于创建可以元学习（“learn to learn”）的代理[29,156]，使他们能够推广到以前从未见过的复杂视觉环境[29]。在图1中，我们展示了DRL应用于的一些领域，包括玩视频游戏[84]到室内导航[167]。

视频游戏可能是一个有趣的挑战，但学习如何玩这些游戏并不是DRL的最终目标。 DRL背后的推动力之一是创建能够学习如何适应现实世界的系统。从管理能耗[142]到挑选和收藏物体[75]，DRL表示增加可以通过学习自动化的物理任务的数量。然而，DRL并不止于此，因为RL是通过反复试验来处理优化问题的一般方法。从设计最先进的机器翻译模型[168]到构建新的优化函数[76]，DRL已经被用于处理各种机器学习任务。而且，就像在机器学习的许多分支中使用深度学习一样，未来DRL似乎可能是构建通用AI系统的重要组成部分[68]。

Fig. 1

Fig. 1，一系列可视化RL域。

（a）来自街机学习环境（ALE）[10]的两个经典Atari 2600视频游戏，“高速公路”和“Seaquest”。由于支持的游戏种类，视觉和难度各不相同，ALE已经成为DRL算法的标准测试平台[84,95,44,122,132,157,85]。正如我们将在后面讨论的，ALE是现在用于标准化RL评估的几个基准之一。

（b）TORCS赛车模拟器，用于测试可输出连续动作的DRL算法[64,79,85]（因为ALE的游戏仅支持离散动作）。

（c）利用机器人模拟器中潜在无限量的训练数据，有几种方法旨在将知识从模拟器转移到现实世界[22,115,146]。

（d）Levine等人设计的四项机器人任务中的两项。 [74]：拧上瓶盖，并在正确的孔中放置一个成型块。 Levine等人[74]能够以端到端的方式训练视觉运动政策，表明通过使用深度神经网络可以直接从原始摄像机输入中学习视觉伺服。

（e）一个真实的房间，其中一个轮式机器人训练导航的建筑物被给予一个视觉提示作为输入，并且必须找到相应的位置[167]。

（f）自然图像被神经网络标注，使用强化学习来选择在哪里看[166]。通过为每个生成的单词处理一小部分图像，网络可以将注意力集中在最突出的点上。图分别从[10,79,146,74,167,166]中复制

2. 奖励驱动行为（REWARD-DRIVEN BEHAVIOUR）

在研究深度神经网络对RL的贡献之前，我们一般会介绍RL的领域。 RL的本质是通过交互来学习。 RL智能体与其环境进行交互，并在观察其行为的结果后，学会根据收到的奖励改变自己的行为。这种试错学习的模式源于行为主义心理学，是RL的主要基础之一[135]。对RL的另一个关键影响是最优控制，它借助了支撑该领域的数学形式（最显着的是动态规划[13]）。

在RL设置中，由机器学习算法控制的智能体（agent）在时间步t时观察其环境的状态s_t。智能体通过在s_t状态下采取行为（action）来与环境（env）进行交互。当智能体采取行为时，环境和智能体将根据当前状态和所选行为转换到新状态s_(t + 1)。状态是对环境的充分统计，并且由此包括智能体采取最佳行为的所有必要信息，其中可以包括智能体的一部分，例如其执行器和传感器的位置。在最优控制文献中，状态和动作通常分别用x_t和u_t表示。

最佳行为顺序取决于环境提供的奖励。每当环境转换到新状态时，它也会向智能体提供标量奖励r_(t + 1)作为反馈。智能体的目标是学习最大化预期收益（累积折扣奖励）的策略（控制策略）π。给定一个状态，一个策略返回一个要执行的动作; 最佳策略是任何可以最大化环境预期回报。在这方面，RL旨在解决与最优控制相同的问题。然而，RL所面临的挑战是智能体需要了解环境中行为的后通过反复试验，与最优控制不同，状态转移动态模型不适用于智能体。每一次与环境的交互都会产生信息，智能体用它来更新其知识。这种感知行为学习循环如图2所示

这里写图片描述
图2.感知行为学习循环。在t时刻，智能体从环境中接收状态s_t。智能体使用其策略来选择行为a_t。一旦行为被执行，环境转变到下一步，提供下一个状态s_(t + 1)以及奖励r_(t + 1)形式的反馈。智能体使用状态转换的知识，形如（s_t，a_t，s_(t + 1)，r_(t + 1)），来不断学习和改进其策略。

A. 马尔科夫决策过程
形式上，RL可以被描述为一个马尔可夫决策过程（MDP），它包括：
- 状态集S，加上起始状态p（s0）的分布。
- 行为集A.
- 转移动态Γ（s_(t + 1) | s_t，a_t）将时间t的状态 - 行为对映射到时间t + 1的状态分布。
- 立即/瞬时奖励函数R（st，at，st + 1）。
- 折扣因子γ∈[0,1]，其中较低值更强调立即奖励

一般来说，策略π是从状态到概率分布在行为上的映射：π：S→p（A = a | S）。如果马尔科夫决策过程是偶发的，即在每次长度为T的情况下重置状态，则状态序列，动作和奖励的顺序构成策略的轨迹或展开。每一项策略的推出都会积累环境的回报R= $\sum_{t=0}^T-1$ ，从而带来回报。 RL的目标是找到一个最优策略π*，它实现了所有状态的最大期望收益：
这里写图片描述

也可以考虑非情节性MDP，其中T =∞。在这种情况下，γ<1防止积累的无限奖励总和。此外，依赖完整轨迹的方法不再适用，但那些使用有限转换的方法仍然适用。

基于RL的关键概念是马尔可夫属性，只有当前状态影响下一个状态，或换句话说，未来在给定当前状态的条件下独立于过去。这意味着在st中做出的任何决定都可以完全基于st-1，而不是{s0，s1，..，st-1}。虽然这个假设被大多数RL算法所保留，但它是不切实际的，因为它要求状态是完全可观察的。 MDP的推广是部分可观测的马尔科夫决策过程（POMDPs），其中智能体接收观测值o_t∈Ω，其中观测值p（ot + 1 | st + 1，at）的分布取决于当前状态和先前的状态行动[56]。在控制和信号处理协议中，观察将通过状态空间模型中的测量/观察映射来描述，该映射取决于当前状态和先前应用的动作。

B. 强化学习的挑战

强调RL中面临的一些挑战是有益的：
• 最佳策略必须通过与环境的反复试验来推断。智能体收到的唯一学习信号就是奖励。
• 智能体的观察依赖于其行为，并可能包含强的时间相关性。
• 智能体必须处理长期时间依赖关系：通常行动的后果只有在环境的许多转变之后才会实现。这被称为（时间）信贷分配问题[135]

我们将在室内机器人视觉导航任务的背景下阐述这些挑战：如果指定了目标位置，我们可能估计出剩余距离（并将其用作奖励信号），但我们不太可能知道事实上机器人需要采取哪些一系列行为才能达到目标。由于机器人在建筑物导航时必须选择去哪里，因此其决定会影响其看到的房间，并因此影响捕获的视觉序列的统计。最后，在导航几个路口之后，机器人可能会陷入死胡同。从学习行动的后果到平衡探索与利用之间存在一系列问题，但最终这些都可以在RL框架内正式解决。

3. 强化学习算法（REINFORCEMENT LEARNING ALGORITH）

到目前为止，我们已经介绍了RL中使用的关键形式，即MDP，并简要地指出了RL中的一些挑战。在下面，我们将区分不同类别的RL算法。解决RL问题主要有两种方法：基于价值函数的方法和基于策略搜索的方法。还有一种混合的演员批评方法，它采用值函数和策略搜索。现在我们将解释这些方法和解决RL问题的其他有用的概念。

A. 值函数（Value Functions）
值函数方法基于估计处于给定状态的价值（预期回报）。状态值函数V是从状态s开始并在随后的π之后的预期回报：
这里写图片描述

最优策略π具有相应的状态值函数V （s），反之亦然，最优状态值函数可以定义为:
这里写图片描述

如果我们V *（s）是可用的，最优策略可以通过在s_t中可用的所有动作中进行选择并选择最大化E的动作

在RL设置中，转换动态T不可用。因此，我们构造另一个函数，即除了提供了初始动作a以外，与π相似的状态行为值或质量函数Q^π（s，a），并且π仅从后继状态开始：
这里写图片描述
给定Q^π(s, a)，最优策略可以通过在每个状态下贪婪地选择：arg max a Q^π(s,a)。在这个策略下，我们还可以通过最大化Q^π（s，a）来定义V^π(s)：Vπ(s)= max a Q^π(s, a)。

动态规划（Dynamic Programming）：为了实际学习Qπ，我们利用马尔可夫性质并将函数定义为贝尔曼方程[13]，其具有以下递归形式：
这里写图片描述

这意味着Q^π可以通过自举来进行提升，即我们可以使用我们的Qπ估计的当前值来改进我们的估计。这是Q-learning[159]和状态-行为-奖励-状态-行为（SARSA）算法[112]的基础：
这里写图片描述
其中α是学习速率并且δ= Y - Q^π（s_t，a_t）是时间差分（TD）误差; 在这里，Y是一个标准回归问题的目标。 SARSA是一种策略学习算法，用于通过使用行为策略（由Q ^π导出的策略）生成的转换来改进Q^π的估计，导致设置Y = rt +γ Q^π（st +1，在+ 1）。 Q-learning不在策略之中，因为Q ^π不是由派生策略生成的过渡更新的。相反，Q-learning 使用Y = rt +γ max a Q^π（st + 1, a），直接近似于Q*

为了从任意Q^π中找到Q^*，我们使用广义策略迭代，策略迭代包括策略评估和策略改进。策略评估改善了价值函数的估计，这可以通过遵循策略所经历的轨迹最小化TD误差来实现。随着估计的提高，通过基于更新后的价值函数贪婪地选择行为，政策自然可以得到改善。而不是单独执行这些步骤来收敛（如在策略迭代中），通用策略迭代允许交错步骤，从而可以更快速地实现进度。

B. 采样（ Sampling）
蒙特卡罗方法不是使用动态规划方法进行自助式价值函数，而是通过平均策略多次部署的回报来估计来自某州的预期回报（2）。正因为如此，纯蒙特卡洛方法也可应用于非马尔可夫环境。另一方面，它们只能用于情景式MDP中，因为推出必须终止以计算回报。如TD（λ）算法[135]所做的那样，通过结合TD学习和蒙特卡罗策略评估，可以获得两种方法中最好的方法。与折扣因子类似，TD（λ）中的λ用于在蒙特卡罗评估和自举之间进行插值。如图3所示，这导致了基于采用的采样量的整个RL方法范围

另一种主要的基于价值函数的方法依赖于学习优势函数A^π（s，a）[6,43]。与生成绝对状态动作值不同，与Q^π一样，A^π代表相对状态动作值。学习相对值类似于去除信号的基线或平均水平; 更直观地说，知道一个动作比另一个动作有更好的结果比学习从采取动作的实际回报更容易。 A^π表示通过简单关系A^π=Q^π-V^π的行为的相对优势，并且与基于梯度的策略搜索方法中的基线方差减少密切相关[164]。优势更新的思想已被用于许多最近的DRL算法中[157,40,85,123]

C. 策略搜索（Policy Search）
策略搜索方法不需要维护价值函数模型，而是直接搜索最优策略π*。通常，选择参数化策略π^θ，其参数使用基于梯度或无梯度优化[26]更新以最大化期望回报E [R |θ]。使用无梯度[37,23,64]和基于梯度的[164,163,46,79,122,123,74]方法成功地对编码策略的神经网络进行了训练。无梯度优化可以有效地覆盖低维参数空间，但尽管在将其应用于大型网络方面取得了一些成功[64]，但基于梯度的训练仍然是大多数DRL算法的首选方法，当策略拥有大量的参数。
这里写图片描述

图3: RL算法的两个维度，基于用于学习或构造a的备份政策。（a）动态规划，（b）详尽搜索，（c）一步TD学习和（d）纯蒙特卡罗方法。（d）纯粹的蒙特卡洛方法从根本上不依赖于自举，从（c）一步TD学习延伸到n步TD学习方法[135]。变化的另一个可能维度是选择（c，d）样本行为与（a，b）对所有选择进行期望。从[135]重新创建。

图4: 演员 - 评论家设置。演员（策略）从环境中接受一个状态并选择一个行动来执行。同时，批评者（价值函数）也接受以前的互动所产生的状态和奖励。评论家使用从这些信息计算出的TD误差来更新自己和演员。从[135]重新创建

当直接构建策略时，通常输出参数用于概率分布; 对于连续行为，这可能是高斯分布的均值和标准偏差，而对于离散行为，这可能是多项分布的个体概率。其结果是一个随机策略，我们可以从中直接对行为进行抽样。使用无梯度的方法，找到更好的方法策略需要跨预定义的模型类进行启发式搜索。诸如进化策略之类的方法本质上是在策略子空间中执行爬山[116]，而更复杂的方法（如压缩网络搜索）会施加额外的诱导性偏差[64]。也许无梯度策略搜索的最大优势在于它们还可以优化不可区分的策略。

（策略梯度）Policy Gradients： 渐变可以为如何改进参数化策略提供强有力的学习信号。但是，为了计算预期收益（1），我们需要对当前策略参数化引起的合理轨迹进行平均。这种平均需要确定性近似（如线性化）或通过抽样进行随机近似[26]。确定性近似值只能应用于基于模型的设置中，其中可以使用底层过渡动态模型。在更常见的模型？自由RL设置中，确定预期回报的蒙特卡洛估计。对于基于梯度的学习，由于梯度不能通过随机函数的这些样本，所以这种蒙特卡洛近似提出了挑战。因此，我们转向一个已知的梯度估计量
RL作为REINFORCE规则[164]，也称为分数函数[34]或似然比估计器[36]。后者的名字告诉使用估计器类似于优化监督学习中对数似然的做法。直观地说，使用估计器的梯度上升增加了采样行为的对数概率，并由回归加权。更正式地说，REINFORCE规则可以用来计算关于参数θ的随机变量X的函数f上的期望的梯度：
这里写图片描述

由于该计算依赖于轨迹的经验回归，因此得到的梯度具有高方差。通过引入较少噪声的无偏估计，可以减少方差。执行此操作的一般方法是减去基线，这意味着通过优势而不是纯粹的回报来加权更新。最简单的基线是几集中的平均收益[164]，但还有更多的选择[123]。

Actor-critic 方法: 将价值函数与策略的显式表示相结合是可能的，从而产生了Actor-critic方法，如图4所示。“演员”（策略）通过使用“批评者”（价值函数）的反馈来学习。在这样做时，这些方法通过价值函数方法引入偏差来平衡政策梯度的方差减少[63,123]。
Actor-critic方法使用价值函数作为策略梯度的基线，使得Actor-critic方法和其他基线方法之间唯一的根本区别是，评论者方法利用学习值函数。为此，我们稍后将讨论actor-critic方法作为策略梯度方法的一个子集。

D. （规划和学习）Planning and Learning
给定一个环境模型，可以对所有可能的行为使用动态规划(图3(a))，启发式搜索的样本轨迹（如AlphaGo [128]所做的那样），甚至执行穷举搜索(图 3(b)。 Sutton和Barto [135]将规划定义为利用模型来产生或改进策略的任何方法。这包括分布模型，其中包括T和R以及样本模型，只能从中抽取样本。

在强化学习中，我们专注于学习，而无需访问基础模型环境。但是，与环境的互动可以用来学习价值函数，策略和模型。无模型RL方法直接从与环境的相互作用中学习，但基于模型的RL方法可以使用学习模型来模拟转换，从而提高样本效率。这在与环境的每次交互都很昂贵的领域中尤其重要。然而，学习模型带来了额外的复杂性，并且总是存在模型错误的风险，这又反过来影响了学习策略;后一种情况下常见的但部分的解决方案是使用模型预测控制，在实际的小动作序列之后重复计划环境[16]。虽然深层神经网络可能会产生非常复杂和丰富的模型[95,132,32]，但有时更简单，更有效的数据方法更可取[40]。这些考虑因素在具有学习价值函数的演员评论方法中也起作用[63,123]。

E. DRL的兴起
DRL的许多成功都是基于将RL之前的工作扩大到高维问题。这是由于学习了低维特征表示和神经网络的强大函数逼近性质。通过表示学习，DRL可以有效地处理维度的诅咒，这与表格和传统的非参数方法不同[15]。例如，卷积神经网络（CNN）可以用作组件的RL代理，让他们直接从原始的，高维度的视觉输入中学习。通常，DRL基于训练深度神经网络来逼近最优策略π，和/或最优值函数V ，Q 和 A