Reinforcement Learning with Deep Energy-Based Policies

最新推荐文章于 2022-10-13 17:51:26 发布

常喝水

最新推荐文章于 2022-10-13 17:51:26 发布

阅读量1.2k

点赞数 2

本文链接：https://blog.csdn.net/weixin_43358537/article/details/90108654

版权

本文提出了一种使用深度神经网络学习连续状态和动作的基于能量的策略方法，称为软Q学习。这种方法在多模态目标探索和技能组合性方面有所改进，适用于具有复杂行为的机器人任务。通过斯坦因变分梯度下降（SVGD）学习随机抽样网络，以近似玻尔兹曼分布的样本，从而优化最大熵强化学习目标。实验表明，这种方法在多模态奖励任务中提供更好的探索性能，并且能够作为预训练，用于后续任务的技能微调。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：我们提出了一种方法，用于学习连续状态和动作的基于能量的表达策略，这在以前的表格域中是可行的。 我们将我们的方法应用于学习最大熵策略，从而产生一种称为软Q学习的新算法，该算法通过玻尔兹曼分布表达最优策略。 我们使用最近提出的斯坦因变分梯度下降来学习随机抽样网络，该网络近似于该分布的样本。所提出的算法的好处包括改进的探索和组合性，允许在任务之间转移技能，我们在游泳和步行机器人的模拟实验中确认。我们还绘制了与actor-critic方法的联系，可以看到对相应的基于能量的模型执行近似推断。
关于本论文的一个博客

1. Introduction

深度强化学习（深度RL）已经成为自主获取复杂行为的有希望的方向（Mnih等，2015; Silver等，2016），因为它能够处理复杂的感觉输入（Jaderberg等， 2016）并使用通用神经网络表示获得精细的行为技能（Levine等，2016）。深度强化学习方法可用于优化确定性（Lillicrap等，2015）和随机（Schulman等，2015a; Mnih等，2016）政策。然而，大多数深度RL方法都依赖于传统的最优性确定性概念，其中最优解决方案，至少在完全可观察性的情况下，始终是一种确定性政策（Sutton＆Barto，1998）。虽然随机政策对于勘探是可取的，但这种探索通常是启发式地获得，例如通过注入噪声（Silver等人，2014; Lillicrap等人，2015; Mnih等人，2015）或初始化具有高熵的随机政策。（Kakade，2002; Schulman等，2015a; Mnih等，2016）。
在某些情况下，我们可能更愿意学习随机行为。在本文中，我们探讨了两个可能的原因：在多模式目标存在下的探索，以及通过预训练获得的组合性。 其他好处包括面对不确定动态的稳健性（Ziebart，2010），模仿学习（Ziebart等，2008），以及改进的收敛性和计算性（Gu et al。，2016a）。多模态也适用于真实的机器人任务，如（Daniel et al。，2012）所示。但是，为了学习这些政策，我们必须确定一个促进随机性的目标。
在哪种情况下，随机政策实际上是最优解？正如在先前的工作中所讨论的，当我们考虑最优控制和概率推理之间的联系时，随机策略成为最佳答案（Todorov，2008）。虽然该框架有多个实例，但它们通常包括成本或奖励函数作为因子图中的附加因子，并推断出以状态为条件的动作的最优条件分布。可以显示该解决方案以优化熵增强的强化学习目标或者对应于最大熵学习问题的解决方案（Toussaint，2009）。直观地，将控制框架作为推理产生的策略旨在不仅捕获具有最低成本的单个确定性行为，而且捕获整个低成本行为范围，明确地最大化相应策略的熵。生成的策略不是学习执行任务的最佳方式，而是尝试学习执行任务的所有方法。现在应该明白为什么这样的策略可能是首选的：如果我们可以学习可以执行给定任务的所有方法，那么所得到的策略可以作为一个良好的初始化，用于微调到更具体的行为（例如，首先学习所有的机器人可以向前移动的方式，然后使用它作为初始化来学习单独的跑步和边界技能）;寻求多模式奖励景观中最佳模式的更好的探索机制;并且在面对对抗扰动时具有更强大的行为，其中以多种不同方式执行相同任务的能力可以为代理提供更多选项以从扰动中恢复。
不幸的是，在一般情况下解决这种最大熵随机政策学习问题是具有挑战性的。已经提出了许多方法，包括Z学习（Todorov，2007），最大熵逆RL（Ziebart等人，2008），使用消息传递的近似推断（Toussaint，2009），Ψ-学习（Rawlik等人。，2012）和G-learning（Fox等人，2016），以及更深入的RL中的最新提议，如PGQ（O’Donoghue等，2016），但这些通常在简单的表格表示中运行，难以应用于连续或高维域，或采用策略分布的简单参数表示，例如条件高斯。因此，虽然策略被优化以便以许多不同的方式执行所需的技能，但是所产生的分布通常在其表示能力方面非常有限，即使该分布的参数由表达函数近似表示，例如神经元。网络。
我们如何将最大熵策略搜索框架扩展到任意策略分布？在本文中，我们从基于能量的模型中借鉴了一个想法，这反过来揭示了Q学习，行为者 - 评论者算法和概率推理之间的有趣联系。在我们的方法中，我们将随机策略表示为（条件）基于能量的模型（EBM），其能量函数对应于在优化最大熵目标时获得的“软”Q函数。在高维连续空间中，与任何一般的EBM一样，此政策的抽样变得难以处理。我们借鉴最近关于EBM的文献，设计了一个基于单独采样网络的近似采样程序，该网络经过优化，可以从政策EBM中生成无偏样本。然后，该采样网络既可用于更新EBM，也可用于动作选择。在强化学习的说法中，抽样网络是演员 - 评论者算法中的参与者。这揭示了一个有趣的联系：熵正则化的actorcritic算法可以被视为近似的Q学习方法，其中演员扮演一个来自难以处理的后验的近似采样器的角色。我们在本文中进一步探讨了这种联系，并在此过程中讨论了与流行的深度RL方法的关系，如确定性政策梯度（DPG）（Silver et al。，2014; Lillicrap et al。，2015），归一化优势函数（ NAF）（Gu等，2016b）和PGQ（O’Donoghue等，2016）。
这项工作的主要贡献是用于优化由基于能量的模型表示的任意多模态随机策略的易处理，有效的算法，以及将该方法与RL和概率推理中的其他近期算法相关联的讨论。在我们的实验评估中，我们探索了我们方法的两个潜在应用。首先，我们证明了在具有多模态奖励景观的任务中改进的勘探性能，其中传统的确定性或单峰方法具有落入次优局部最优的高风险。其次，我们探索如何使用我们的方法在强化学习中提供一定程度的组合性，表明随机基于能量的政策可以作为学习新技能的更好的初始化，而不是随机政策或预先传统的最大奖励目标的政策。

2. Preliminaries

在本节中，我们将定义我们正在解决的强化学习问题，并简要总结最大熵策略搜索目标。我们还将在算法中提供一些有用的身份，这些身份将在第3节中介绍。

2.0 最大熵

在这里插入图片描述

关于最大熵模型的知识

2.1. Maximum Entropy Reinforcement Learning

将最优策略的值函数中引入最大熵
其中α是一个可选但方便的参数，可用于确定熵和奖励的相对重要性.1此类优化问题已在许多先前的工作中得到探讨（Kappen，2005; Todorov，2007; Ziebart等。第4节更详细地介绍了这一目标。请注意，该目标与Boltzmann勘探（Sallans＆Hinton，2004）和PGQ（O’Donoghue等，2016）的行为在质量上有所不同，后者贪婪地最大化熵。在当前时间步骤，但没有明确优化旨在达到未来将具有高熵的状态的政策。这种区分是至关重要的，因为最大熵目标可以显示为最大化政策π的整个轨迹分布的熵，而贪婪的玻尔兹曼探索方法则不然（Ziebart等，2008; Levine＆Abbeel，2014）。正如我们将在第5节中讨论的那样，这种最大熵公式具有许多好处，例如改进多模态问题的探索和更好的预训练以便以后的适应。
如果我们希望将常规或最大熵RL目标扩展到无限地平线问题，则还可以引入折扣因子γ以确保预期奖励（和熵）的总和是有限的。在政策搜索算法的背景下，折扣因子的使用实际上是一种有些细微差别的选择，写下使用折扣因子时优化的精确目标是非平凡的（Thomas，2014）。我们将折现目标的完全推导推迟到附录A，因为明确写出来是不实用的，但我们将在以下推导和最终算法中使用折扣γ。

2.2. Soft Value Functions and Energy-Based Models

优化（2）中的最大熵目标为我们提供了培训随机策略的框架，但我们仍然必须选择这些策略的表示。先前工作中的选择包括离散多项分布（O’Donoghue等，2016）和高斯分布（Rawlik等，2012）。但是，如果我们想要使用可以代表复杂的多模式行为的非常一般的分布类别，我们可以选择使用表单中基于能量的一般策略：

其中E是能量函数，例如可以通过深度神经网络来表示。如果我们使用E的通用函数近似，我们可以表示任何分布π（at | st）。这些基于能量的模型与价值函数和Q函数的soft版本之间存在紧密联系。

我们希望让智能体探索所有希望的状态，同时按照有希望的程度做优先级排序。为了用数学形式化这一思想，一种方式是直接以指数 Q 值的形式定义策略（图 3b，绿色分布）

其密度具有玻尔兹曼分布的形式，其中 Q 函数用作负能量（negative energy），其会为所有动作分配一个非零似然。因此，该智能体就能知晓所有可以解决该任务的行为，这能有助于该智能体适应条件变化，使得该智能体在某些解决方案不可行时也能够解决该任务。事实上，我们可以表明：通过能量形式定义的策略是最大熵强化学习目标函数（2）的一个最优解，这个函数只是将传统的强化学习目标与策略的熵加到了一起（Ziebart 2010）。学习这种最大熵模型的思想源自统计建模，其目标是在满足观察到的统计结果的同时找到具有最高熵的概率分布。比如说，如果该分布在欧几里德空间上且观察的统计结果是均值和协方差，那么其最大熵分布就是一个带有对应均值和协方差的高斯分布。在实践中，我们更喜欢最大熵模型，因为它们对未知的假设最少，同时也能匹配观察到的信息。