论文阅读：A Brief Survey of Deep Reinforcement Learning

最新推荐文章于 2022-10-10 22:44:38 发布

小帅吖

最新推荐文章于 2022-10-10 22:44:38 发布

阅读量1.4k

点赞数

分类专栏：论文阅读文章标签：深度强化学习论文

本文链接：https://blog.csdn.net/qq_47997583/article/details/124183607

版权

论文阅读专栏收录该内容

2 篇文章 2 订阅

订阅专栏

arxiv地址：https://discovery.ucl.ac.uk/id/eprint/10083557/1/1708.05866v2.pdf

发表时间： 28 Sep 2017

当前被引次数：1247

摘要：深度强化学习有望彻底改变人工智能领域，并代表着朝着构建对视觉世界有更高层次理解的自主系统迈出了一步。目前，深度学习使强化学习能够扩展到以前难以解决的问题，例如直接从像素学习玩视频游戏。深度强化学习算法也应用于机器人技术，允许直接从现实世界中的相机输入中学习机器人的控制策略。在本次调查中，我们首先介绍了强化学习的一般领域，然后介绍了主流得基于价值和基于策略的方法。我们的调查将涵盖深度强化学习中的核心算法，包括Q-network（DQN）,
trust region policy optimisation（TRPO）, and asynchronous advantage
actor-critic（A3C）。同时，我们强调了深度神经网络的独特优势，专注于通过强化学习进行视觉理解。最后，我们描述了该领域的几个当前主要研究领域。

1.INTRODUCTION（介绍）

人工智能 (AI) 领域的主要目标之一是产生完全自主的agent，它们与环境交互以学习最佳行为，并通过反复试验随着时间的推移而改进。构建响应迅速且可以有效学习的人工智能系统一直是一项长期挑战，从可以感知周围世界并对其做出反应的机器人，到可以与自然语言和多媒体交互的纯软件agent。经验驱动的自主学习的原则性数学框架是强化学习（RL）。尽管 RL在过去取得了一些成功，但以前的方法缺乏可扩展性，并且本质上仅限于相当低维的问题。存在这些限制是因为RL 算法与其他算法具有相同的复杂性问题：内存复杂性、计算复杂性，以及在机器学习算法的情况下，样本复杂性。近年来我们所见证的——深度学习的兴起，依靠深度神经网络强大的函数逼近和表征学习特性——为我们提供了克服这些问题的新工具。

深度学习的出现对机器学习的许多领域产生了重大影响，极大地提高了目标检测、语音识别和语言翻译等任务的最新技术。深度学习最重要的特性是深度神经网络可以自动找到高维数据（例如图像、文本和音频）的紧凑低维表示（特征）。通过将归纳偏差使用到神经网络架构中，特别是分层表示的架构，机器学习从业者在解决维度灾难方面取得了有效进展。深度学习同样加速了 RL 的进展，在 RL 中使用深度学习算法定义了“深度强化学习”（DRL）领域。本次调查的目的旨在涵盖 DRL 的开创性和最新发展，传达神经网络可用于使我们更接近开发自主agent的创新方式。为了更全面地了解 DRL 最近的努力，包括 DRL 在自然语言处理等领域的应用。

深度学习使 RL 能够扩展到以前难以解决的决策问题，即具有高维状态和动作空间的设置。在 DRL 领域的近期工作中，有两个杰出的成功案例。第一个是 DRL 革命的开始，它是一种算法的开发，可以直接从图像像素学习以超人的水平玩一系列 Atari 2600 视频游戏[1]。为 RL 中函数逼近技术的不稳定性提供解决方案，这项工作是第一个令人信服地证明 RL 智能体可以仅基于奖励信号的原始高维观察进行训练。第二个突出的成功是开发了混合 DRL 系统 AlphaGo[2]，它击败了围棋世界冠军，与 20 年前 IBM 的 Deep Blue 在国际象棋和 IBM 的 Watson DeepQA 系统的历史性成就相提并论。与主导国际象棋系统的手工规则不同，AlphaGo 由神经网络组成，这些神经网络使用监督和强化学习以及传统的启发式搜索算法进行训练。

DRL 算法已经应用于广泛的问题，例如机器人技术，其中机器人的控制策略现在可以直接从现实世界中的相机输入中学习 [3] [4]，胜过过去手动设计或学习的控制器机器人状态的低维特征。在迈向更强大的agent的一步中，DRL 已被用于创建可以元学习（“学会学习”）的agent [5]，使它们能够泛化到他们以前从未见过的复杂视觉环境。在图 1 中，我们仅展示了 DRL 已应用于的一些领域，从玩视频游戏到室内导航 [6]。

视频游戏可能是一个有趣的挑战，但学习如何玩它们并不是 DRL 的最终目标。DRL 背后的驱动力之一是创建能够学习如何适应现实世界的系统的愿景。从管理功耗[7]到拾取和存放物体 [4],DRL 将增加可以通过学习实现自动化的真实任务的数量。然而，DRL 并不止于此，因为 RL 是通过反复试验来解决优化问题的一般方法。从设计最先进的机器翻译模型 [8]到构建新的优化函数 [9]，DRL 已被用于处理各种机器学习任务。而且，就像深度学习已在机器学习的许多分支中使用一样，在未来，DRL 似乎很可能成为构建通用 AI 系统的重要组成部分[14]
在这里插入图片描述

图 1：一系列视觉 RL 域。 (a) 来自 Arcade Learning Environment (ALE) [10] 的两个经典 Atari 2600 视频游戏“Freeway”和“Seaquest”。 (b) TORCS 赛车模拟器，已用于测试可以输出连续动作的 DRL 算法。 © 利用机器人模拟器中可以积累的潜在无限量的训练数据，几种方法旨在将知识从模拟器转移到现实世界 [10][11][12] (d) Levine 等人设计的四个机器人任务中的两个。[3]：拧上瓶盖并将成型块放入正确的孔中。能够以端到端的方式训练视觉运动策略，表明可以通过使用深度神经网络直接从原始相机输入中学习视觉伺服。 (e) 一个真实的房间，其中一个被训练来导航建筑物的轮式机器人被给予视觉提示作为输入，并且必须找到相应的位置 [6]。 (f) 由神经网络描述的自然图像，该网络使用强化学习来选择看哪里[13]通过为生成的每个单词处理一小部分图像，网络可以将注意力集中在最显着的点上。

2. REWARD-DRIVEN BEHAVIOUR（以奖励驱动的行为）

研究深度神经网络对 RL 的贡献之前，我们将总体介绍 RL 领域。强化学习的本质是通过交互学习。 RL agent与其环境交互，并在观察其行为的后果后，可以学习改变自己的行为以响应收到的奖励。这种试错学习的范式源于行为主义心理学，是强化学习的主要基础之一。对 RL的另一个关键影响是最优控制，它借用了支撑该领域的数学形式（最显着的是动态规划 [15]
在 RL 设置中，由机器学习算法控制的自主agent在时间步 t 观察其环境中的状态 st。代理通过在状态 st 中采取行动与环境交互。当代理采取行动时，环境和代理会根据当前状态和所选操作转换到新状态 st+1。状态是环境的充分统计，因此包含代理采取最佳行动所需的所有必要信息，其中可以包括agent的部分，例如其执行器和传感器的位置。在最优控制文献中，状态和动作通常分别用 xt 和 ut 表示。最佳的行动顺序取决于环境提供的奖励。每次环境转换到新状态时，它也会向代理提供标量奖励 rt+1 作为反馈。智能体的目标是学习最大化预期回报（累积、折扣奖励）的策略（控制策略）π。给定状态，策略返回要执行的动作；最优策略是使环境中的预期回报最大化的任何策略。在这方面，RL 旨在解决与最优控制相同的问题。然而，强化学习的挑战在于代理需要通过反复试验来了解环境中行为的后果，与最优控制不同，代理无法使用状态转换动态模型。与环境的每次交互都会产生信息，代理使用这些信息来更新其知识。这种感知-动作学习循环如图 2 所示。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-js1MWpCh-1649946279083)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\image-20220414211955277.png)]$

图 2：感知-行动-学习循环。在时间 t，代理从环境接收状态 st。代理使用它的策略来选择一个动作。一旦执行了动作，环境就会转换一个步骤，提供下一个状态 st+1 以及以奖励 rt+1 形式的反馈。代理使用 (st, at, st+1, rt+1) 形式的状态转换知识来学习和改进其策略。

A：马尔可夫决策过程

在各种RL书籍都有介绍，本部分不介绍

B：Challenges in RL

强调强化学习面临的一些挑战是有益的：

最优策略必须通过与环境的试错交互来推断。代理收到的唯一学习信号是奖励。
代理的观察取决于其行为，并且可能包含很强的时间相关性。
代理必须处理长期的时间依赖性：通常一个动作的结果只有在环境的多次转换之后才会出现。这被称为（时间）信用分配问题[16]
我们将在室内机器人视觉导航任务的背景下说明这些挑战：如果指定了目标位置，我们可能能够估计剩余距离（并将其用作奖励信号），但我们不太可能知道机器人需要采取哪些动作才能达到目标。由于机器人在导航建筑物时必须选择去哪里，它的决定会影响它看到的房间，从而影响所捕获的视觉序列的统计数据。最后，在导航了几个路口后，机器人可能会发现自己陷入了死胡同。存在一系列问题，从学习行动的后果到 exploration（探索）和exploitation（利用）。但最终这些都可以在以下框架内正式解决RL。

3. REINFORCEMENT LEARNING ALGORITHMS（强化学习算法）

本部分不做介绍

可参看一些比较好的资料学习：

easy-rl：https://datawhalechina.github.io/easy-rl/#/

spiningup：https://spinningup.qiwihui.com/zh_CN/latest/user/introduction.html#id3

stable-baselines3：https://stable-baselines3.readthedocs.io/en/master/

4. VALUE FUNCTIONS（价值函数）

同上

5. POLICY SEARCH （策略搜索）

同上

6.CURRENT RESEARCH AND CHALLENGES（当前的研究和挑战）

最后，我们将重点介绍 DRL 的一些当前研究领域，以及仍然存在的挑战。以前，我们主要关注model-free 方法，但现在我们将更详细地研究一些基于模型的 DRL 算法。model-based的 RL 算法在提高 RL 数据效率以及权衡探索和利用方面发挥着重要作用。在解决了探索策略之后，我们将讨论 HRL，它通过将最终策略明确分解为几个级别来对最终策略施加归纳偏差。如果可用，来自其他控制器的轨迹可用于引导学习过程，引导我们进行模仿学习和逆强化学习 (IRL)。对于特定于 RL 的最后一个主题，我们将研究多智能体系统，它们有自己的特殊考虑。然后，我们在 DRL 的背景下关注两个更广泛的领域——RNN 的使用和迁移学习。然后，我们检查评估 RL 的问题，以及 DRL 的当前基准。

A：Model-based RL

基于模型的 RL 背后的关键思想是学习一个过渡模型，该模型允许在不直接与环境交互的情况下模拟环境。基于模型的 RL 不假设特定的先验知识。然而，在实践中，我们可以结合先验知识（例如，基于世界的模型来加速学习。模型学习在减少与（真实）环境所需的交互量方面发挥着重要作用，这在实践中可能会受到限制。例如，在合理的时间内用机器人进行数百万次实验并且没有明显的硬件磨损是不现实的。有多种方法可以使用像素信息来学习动态系统的预测模型，基于深度动态模型，其中使用自动编码器将高维观察嵌入到低维空间中，已经提出了几种基于模型的 DRL 算法，用于从像素信息中学习模型和策略 .如果可以学习到足够准确的环境模型，那么即使是简单的控制器也可以直接从相机图像中控制机器人。学习模型也可用于纯粹基于环境模拟来指导探索，深度模型允许将这些技术扩展到高维视觉域。

关于基于神经网络的模型的好处的一个令人信服的见解是，它们可以克服使用不完美模型进行规划所带来的一些问题。实际上，通过将这些模型的激活和预测（输出）嵌入到一个向量中，DRL 代理不仅可以获得比任何模型推出的最终结果更多的信息但是如果它认为模型不准确，它也可以学会淡化这些信息。与传播不确定性的贝叶斯方法相比，这可能更有效，但原则性较差。利用基于神经网络的模型的灵活性的另一种方法是让它们决定何时进行规划，也就是说，给定有限的计算量，是否值得对一条长轨迹、几条短轨迹或任何之间，或者只是在真实环境中采取行动。

尽管深度神经网络可以在数百个时间步长的模拟环境中做出合理的预测，但它们通常需要许多样本来调整它们包含的大量参数。训练这些模型通常需要比简单模型更多的样本（与环境的交互）。为此，顾等人训练局部线性模型以与 NAF 算法（DQN [84] 的连续等效项）一起使用，以提高该算法在样本昂贵的机器人领域中的样本复杂性。为了促进在基于模型的 DRL 中采用深度模型，有必要找到可以用来提高数据效率的策略。在无模型和基于模型的方法之间存在一种不太常见但可能有用的范例——后继表示（SR）。学习 T 不是直接选择动作或使用模型执行规划，而是学习预期（折扣）未来占用率（SRs）代替，后者可以与 R 线性组合以计算最佳动作；当奖励结构发生变化时，这种分解使得 SR 比无模型方法更稳健（但在 T 变化时仍然容易出错）。将 SR 扩展到深度神经网络的工作已经证明了它在多任务设置中的有用性，同时在复杂的视觉环境中。

B：Exploration vs. Exploitation

C：Hierarchical RL

与深度学习依赖于特征层次结构一样，HRL 依赖于策略层次结构。该领域的早期工作引入了选项，其中除了原始操作（单时间步操作）外，策略还可以运行其他策略（多时间步“操作”）。这种方法允许顶级策略专注于更高级别的目标，而子策略则负责精细控制。 DRL 中的几项工作通过使用一种在子策略之间进行选择的顶级策略来尝试 HRL，其中将状态或目标划分为子策略是手动实现的或自动。帮助构建子策略的一种方法是专注于发现和实现目标，即环境中的特定状态；它们通常可能是代理应该导航到的位置。无论是否与 HRL 一起使用，目标的发现和概括也是正在进行的研究的一个重要领域。

D：Imitation Learning and Inverse RL

有人可能会问，为什么如果给定来自专家演示的一系列“最佳”动作，就不可能以直接的方式使用监督学习——这是“从演示中学习”的例子。这确实是可能的，并且在传统的 RL 文献中被称为行为克隆。利用监督学习问题中可用的更强信号，行为克隆在早期的神经网络研究中取得了成功，其中最显着的成功是 ALVINN，它是最早的自动驾驶汽车之一。但是，行为克隆无法适应新情况，并且在学习策略执行期间与演示的微小偏差可能会加剧并导致策略无法恢复的情况。更通用的解决方案是使用提供的轨迹来指导学习合适的状态-动作对，但使用 RL微调代理。或者，如果专家在训练期间仍然可以查询，代理可以使用主动学习来收集额外的数据当不确定时，允许它从远离最佳轨迹的状态中学习。这已被应用于深度学习设置，其中 CNN 在具有主动学习的视觉导航任务中进行了训练，在纯模仿学习基线上得到了显着改进。

IRL 的目标是从表征所需解决方案的观察轨迹中估计未知的奖励函数 [[29]； IRL 可以与 RL 结合使用，以改进已展示的行为。利用深度神经网络的力量，现在可以为 IRL 学习复杂的非线性奖励函数。 Ho 和 Ermon 表明，策略的独特特征在于它们的占用率（访问状态和动作分布），这使得 IRL 可以简化为度量匹配问题。凭借这种洞察力，他们能够使用生成对抗训练以更灵活的方式促进奖励函数学习，从而产生生成对抗模仿学习 (GAIL) 算法。 GAIL 后来被扩展以允许应用 IRL，即使从与 RL 代理不同的视觉角度接收专家轨迹在补充工作中，Baram 等人利用 GAIL 中未使用的梯度信息来学习 IRL 过程中的模型。

E：Multi-agent RL

通常，RL 会考虑静止环境中的单个学习代理。相比之下，多智能体 RL (MARL) 考虑通过 RL 学习多个智能体，并且通常由其他智能体引入的非平稳性在他们学习时会改变他们的行为。在 DRL 中，重点是在代理之间启用（可区分的）通信，这允许它们进行合作。为此目的，已经提出了几种方法，包括将消息顺序传递给代理，使用双向通道（提供具有较少信号损失的排序）和全通通道。添加通信渠道是在复杂场景中应用于 MARL 的一种自然策略，并且不排除在 MARL 文献的其他地方应用的对合作或竞争代理进行建模的通常做法。 MARL 中其他值得注意的 DRL 作品研究了博弈论中学习和顺序决策的影响。

F：Memory and Attention

G：Transfer Learning

尽管 DRL 算法可以处理高维输入，但由于需要大量样本，直接在现实世界中的视觉输入上训练 RL 代理很少可行。为了加速 DRL 中的学习，可以利用以前从相关任务中获得的知识，这些知识有几种形式：迁移学习、多任务学习等等。人们对将学习从一项任务转移到另一项任务非常感兴趣，特别是通过使用视觉渲染器在物理模拟器中进行训练和在现实世界中微调模型。这可以以一种简单的方式来实现，在模拟和真实阶段直接使用相同的网络，或者使用更复杂的训练程序直接尝试通过添加额外的来缓解神经网络“灾难性地忘记”旧知识的问题传输域时的层。其他方法包括直接学习模拟和真实视觉之间的对齐，甚至是两个不同的相机视点之间的对齐。

可以利用不同形式的迁移以多任务训练的形式帮助强化学习。特别是对于神经网络，有监督和无监督的学习任务可以帮助训练 RL 代理可以使用的特征，从而更容易实现 RL 目标的优化。例如，“无监督强化和辅助学习”基于 A3C 的代理额外使用“像素控制”（maxi-改变像素输入），加上奖励预测和从经验重放中学习的价值函数。同时，Mirowski 等人的基于 A3C 的代理。还接受了训练，可以在给定 RGB 输入的情况下构建深度图，这有助于它学习导航 3D 环境的任务。在消融研究中，Mirowski 等人。表明预测深度比接收深度作为额外输入更有用，这进一步支持了辅助任务引起的梯度在提升 DRL 方面非常有效的观点。

迁移学习也可用于构建更多数据和参数有效的策略。在机器学习的学生-教师范式中，可以先训练一个更强大的“教师”模型，然后用它来指导一个不太强大的“学生”模型的训练。虽然最初应用于监督学习，但被称为蒸馏的神经网络知识转移技术已被用于将大型 DQN 学习到的策略转移到较小的 DQN，以及将在不同游戏中训练的多个 DQN 学习到的策略转移到单个 DQN 。总之，多任务和迁移学习的结合可以提高当前 DRL 算法的样本效率和鲁棒性。如果我们希望构建能够完成广泛任务的代理，这些都是重要的主题，因为一次天真地训练多个 RL 目标可能是不可行的。

H：Benchmarks

7.CONCLUSION: BEYOND PATTERN RECOGNITION（结论：超越模式识别）

尽管 DRL 取得了成功，但在将这些技术应用于广泛的复杂现实世界问题之前，还需要解决许多问题。最近使用（非深度）生成因果模型的工作在一些基准测试中证明了优于标准 DRL 算法的泛化能力，这是通过推理环境中的因果关系来实现的。例如，Kanksy 等人的模式网络在游戏“Breakout”上训练后立即适应了一个变体，其中在目标块前面放置了一堵小墙，而渐进式（A3C）网络即使在训练后也无法匹配模式网络的性能新域。尽管 DRL 已经与搜索和规划等 AI 技术相结合，但与其他传统 AI 方法的更深入集成有望带来诸如更好的样本复杂性、泛化性和可解释性等好处。随着时间的推移，我们也希望我们对神经网络（特别是在 DRL 中）特性的理论理解能够得到改善，因为它目前远远落后于实践。总而言之，值得重新审视所有这些研究的总体目标：创建可以与周围世界交互和学习的通用人工智能系统。与环境的交互同时是强化学习的优点和缺点。虽然在寻求了解我们复杂且不断变化的世界方面存在许多挑战，但 RL 允许我们选择探索它的方式。实际上，RL 赋予代理执行实验以更好地了解周围环境的能力，使他们能够学习甚至高级别的因果关系。高质量视觉渲染器和物理引擎的可用性现在使我们能够朝着这个方向迈出一步，其作品试图在视觉环境中学习直观的物理模型。在现实世界中实现这一目标之前仍然存在挑战，但通过观察和行动来学习世界基本原理的智能体正在取得稳步进展。那么，也许我们离在日益复杂的环境中以更像人类的方式学习和行动的人工智能系统并不太远。

[1] V olodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu,
Joel V eness, Marc G Bellemare, Alex Graves, Martin Riedmiller,
Andreas K Fidjeland, Georg Ostrovski, et al. Human-Level Control
through Deep Reinforcement Learning. Nature, 518(7540):529–533,
2015.
[2] David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Lau-
rent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis
Antonoglou, V eda Panneershelvam, Marc Lanctot, et al. Mastering
the Game of Go with Deep Neural Networks and Tree Search. Nature,
529(7587):484–489, 2016.
[3] Sergey Levine, Chelsea Finn, Trevor Darrell, and Pieter Abbeel. End-
to-End Training of Deep Visuomotor Policies. JMLR, 17(39):1–40,
2016.
[4] Sergey Levine, Peter Pastor, Alex Krizhevsky, and Deirdre Quillen.
Learning Hand-Eye Coordination for Robotic Grasping with Deep
Learning and Large-Scale Data Collection. In ISER, 2016
[5] Yan Duan, John Schulman, Xi Chen, Peter L Bartlett, Ilya Sutskever,
and Pieter Abbeel. RL2: Fast Reinforcement Learning via Slow
Reinforcement Learning. In NIPS Workshop on Deep Reinforcement
Learning, 2016.
[6] Yuke Zhu, Roozbeh Mottaghi, Eric Kolve, Joseph J Lim, Abhinav
Gupta, Li Fei-Fei, and Ali Farhadi. Target-Driven Visual Navigation
in Indoor Scenes using Deep Reinforcement Learning. In ICRA, 2017.
[7] Gerald Tesauro, Rajarshi Das, Hoi Chan, Jeffrey Kephart, David
Levine, Freeman Rawson, and Charles Lefurgy. Managing Power Con-
sumption and Performance of Computing Systems using Reinforcement
Learning. In NIPS, 2008.
[8] Barret Zoph and Quoc V Le. Neural Architecture Search with
Reinforcement Learning. In ICLR, 2017.
[9] Ke Li and Jitendra Malik. Learning to Optimize. 2017
[10] Paul Christiano, Zain Shah, Igor Mordatch, Jonas Schneider, Trevor
Blackwell, Joshua Tobin, Pieter Abbeel, and Wojciech Zaremba. Trans-
fer from Simulation to Real World through Learning Deep Inverse
Dynamics Model. arXiv:1610.03518, 2016.
[11] Andrei A Rusu, Matej V ecerik, Thomas Rothörl, Nicolas Heess, Razvan Pascanu, and Raia Hadsell. Sim-to-Real Robot Learning from Pixels
with Progressive Nets. In CoRL, 2017.
[12] Eric Tzeng, Coline Devin, Judy Hoffman, Chelsea Finn, Xingchao
Peng, Sergey Levine, Kate Saenko, and Trevor Darrell. Towards
Adapting Deep Visuomotor Representations from Simulated to Real
Environments. In WAFR, 2016
[13] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C
Courville, Ruslan Salakhutdinov, Richard S Zemel, and Y oshua Bengio.
Show, Attend and Tell: Neural Image Caption Generation with Visual
Attention. In ICML, volume 14, 2015.
[14] Brenden M Lake, Tomer D Ullman, Joshua B Tenenbaum, and
Samuel J Gershman. Building Machines That Learn and Think Like
People. The Behavioral and Brain Sciences, page 1, 2016.
[15] Richard Bellman. On the Theory of Dynamic Programming. PNAS,
38(8):716–719, 1952.
[16] Richard S Sutton and Andrew G Barto. Reinforcement Learning: An
Introduction. MIT Press, 1998

小帅吖

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：A Brief Survey of Deep Reinforcement Learning

arxiv地址：https://discovery.ucl.ac.uk/id/eprint/10083557/1/1708.05866v2.pdf发表时间： 28 Sep 2017当前被引次数：1247摘要：深度强化学习有望彻底改变人工智能领域，并代表着朝着构建对视觉世界有更高层次理解的自主系统迈出了一步。目前，深度学习使强化学习能够扩展到以前难以解决的问题，例如直接从像素学习玩视频游戏。深度强化学习算法也应用于机器人技术，允许直接从现实世界中的相机输入中学习机器人的控制策略。在本次调查中，我们首先介
复制链接

扫一扫

专栏目录