Reinforcement Learning with Deep Energy-Based Policies

  • 摘要:我们提出了一种方法,用于学习连续状态和动作的基于能量的表达策略,这在以前的表格域中是可行的。 我们将我们的方法应用于学习最大熵策略,从而产生一种称为软Q学习的新算法,该算法通过玻尔兹曼分布表达最优策略。 我们使用最近提出的斯坦因变分梯度下降来学习随机抽样网络,该网络近似于该分布的样本。 所提出的算法的好处包括改进的探索和组合性,允许在任务之间转移技能,我们在游泳和步行机器人的模拟实验中确认。 我们还绘制了与actor-critic方法的联系,可以看到对相应的基于能量的模型执行近似推断。
  • 关于本论文的一个博客

1. Introduction

  • 深度强化学习(深度RL)已经成为自主获取复杂行为的有希望的方向(Mnih等,2015; Silver等,2016),因为它能够处理复杂的感觉输入(Jaderberg等, 2016)并使用通用神经网络表示获得精细的行为技能(Levine等,2016)。深度强化学习方法可用于优化确定性(Lillicrap等,2015)和随机(Schulman等,2015a; Mnih等,2016)政策。然而,大多数深度RL方法都依赖于传统的最优性确定性概念,其中最优解决方案,至少在完全可观察性的情况下,始终是一种确定性政策(Sutton&Barto,1998)。虽然随机政策对于勘探是可取的,但这种探索通常是启发式地获得,例如通过注入噪声(Silver等人,2014; Lillicrap等人,2015; Mnih等人,2015)或初始化具有高熵的随机政策。 (Kakade,2002; Schulman等,2015a; Mnih等,2016)。
  • 在某些情况下,我们可能更愿意学习随机行为。 在本文中,我们探讨了两个可能的原因:在多模式目标存在下的探索,以及通过预训练获得的组合性。 其他好处包括面对不确定动态的稳健性(Ziebart,2010),模仿学习(Ziebart等,2008),以及改进的收敛性和计算性(Gu et al。,2016a)。 多模态也适用于真实的机器人任务,如(Daniel et al。,2012)所示。 但是,为了学习这些政策,我们必须确定一个促进随机性的目标。
  • 在哪种情况下,随机政策实际上是最优解?正如在先前的工作中所讨论的,当我们考虑最优控制和概率推理之间的联系时,随机策略成为最佳答案(Todorov,2008)。虽然该框架有多个实例,但它们通常包括成本或奖励函数作为因子图中的附加因子,并推断出以状态为条件的动作的最优条件分布。可以显示该解决方案以优化熵增强的强化学习目标或者对应于最大熵学习问题的解决方案(Toussaint,2009)。直观地,将控制框架作为推理产生的策略旨在不仅捕获具有最低成本的单个确定性行为,而且捕获整个低成本行为范围,明确地最大化相应策略的熵。生成的策略不是学习执行任务的最佳方式,而是尝试学习执行任务的所有方法。现在应该明白为什么这样的策略可能是首选的:如果我们可以学习可以执行给定任务的所有方法,那么所得到的策略可以作为一个良好的初始化,用于微调到更具体的行为(例如,首先学习所有的机器人可以向前移动的方式,然后使用它作为初始化来学习单独的跑步和边界技能);寻求多模式奖励景观中最佳模式的更好的探索机制;并且在面对对抗扰动时具有更强大的行为,其中以多种不同方式执行相同任务的能力可以为代理提供更多选项以从扰动中恢复。
  • 不幸的是,在一般情况下解决这种最大熵随机政策学习问题是具有挑战性的。已经提出了许多方法,包括Z学习(Todorov,2007),最大熵逆RL(Ziebart等人,2008),使用消息传递的近似推断(Toussaint,2009),Ψ-学习(Rawlik等人。 ,2012)和G-learning(Fox等人,2016),以及更深入的RL中的最新提议,如PGQ(O’Donoghue等,2016),但这些通常在简单的表格表示中运行,难以应用于连续或高维域,或采用策略分布的简单参数表示,例如条件高斯。因此,虽然策略被优化以便以许多不同的方式执行所需的技能,但是所产生的分布通常在其表示能力方面非常有限,即使该分布的参数由表达函数近似表示,例如神经元。网络。
  • 我们如何将最大熵策略搜索框架扩展到任意策略分布?在本文中,我们从基于能量的模型中借鉴了一个想法,这反过来揭示了Q学习,行为者 - 评论者算法和概率推理之间的有趣联系。在我们的方法中,我们将随机策略表示为(条件)基于能量的模型(EBM),其能量函数对应于在优化最大熵目标时获得的“软”Q函数。在高维连续空间中,与任何一般的EBM一样,此政策的抽样变得难以处理。我们借鉴最近关于EBM的文献,设计了一个基于单独采样网络的近似采样程序,该网络经过优化,可以从政策EBM中生成无偏样本。然后,该采样网络既可用于更新EBM,也可用于动作选择。在强化学习的说法中,抽样网络是演员 - 评论者算法中的参与者。这揭示了一个有趣的联系:熵正则化的actorcritic算法可以被视为近似的Q学习方法,其中演员扮演一个来自难以处理的后验的近似采样器的角色。我们在本文中进一步探讨了这种联系,并在此过程中讨论了与流行的深度RL方法的关系,如确定性政策梯度(DPG)(Silver et al。,2014; Lillicrap et al。,2015),归一化优势函数( NAF)(Gu等,2016b)和PGQ(O’Donoghue等,2016)。
  • 这项工作的主要贡献是用于优化由基于能量的模型表示的任意多模态随机策略的易处理,有效的算法,以及将该方法与RL和概率推理中的其他近期算法相关联的讨论。 在我们的实验评估中,我们探索了我们方法的两个潜在应用。 首先,我们证明了在具有多模态奖励景观的任务中改进的勘探性能,其中传统的确定性或单峰方法具有落入次优局部最优的高风险。 其次,我们探索如何使用我们的方法在强化学习中提供一定程度的组合性,表明随机基于能量的政策可以作为学习新技能的更好的初始化,而不是随机政策或预先传统的最大奖励目标的政策。

2. Preliminaries

  • 在本节中,我们将定义我们正在解决的强化学习问题,并简要总结最大熵策略搜索目标。 我们还将在算法中提供一些有用的身份,这些身份将在第3节中介绍。
2.0 最大熵

在这里插入图片描述
在这里插入图片描述


2.1. Maximum Entropy Reinforcement Learning
  • 将最优策略的值函数中引入最大熵
    在这里插入图片描述
  • 其中α是一个可选但方便的参数,可用于确定熵和奖励的相对重要性.1此类优化问题已在许多先前的工作中得到探讨(Kappen,2005; Todorov,2007; Ziebart等。第4节更详细地介绍了这一目标。请注意,该目标与Boltzmann勘探(Sallans&Hinton,2004)和PGQ(O’Donoghue等,2016)的行为在质量上有所不同,后者贪婪地最大化熵。在当前时间步骤,但没有明确优化旨在达到未来将具有高熵的状态的政策。这种区分是至关重要的,因为最大熵目标可以显示为最大化政策π的整个轨迹分布的熵,而贪婪的玻尔兹曼探索方法则不然(Ziebart等,2008; Levine&Abbe​​el,2014)。正如我们将在第5节中讨论的那样,这种最大熵公式具有许多好处,例如改进多模态问题的探索和更好的预训练以便以后的适应。
  • 如果我们希望将常规或最大熵RL目标扩展到无限地平线问题,则还可以引入折扣因子γ以确保预期奖励(和熵)的总和是有限的。在政策搜索算法的背景下,折扣因子的使用实际上是一种有些细微差别的选择,写下使用折扣因子时优化的精确目标是非平凡的(Thomas,2014)。我们将折现目标的完全推导推迟到附录A,因为明确写出来是不实用的,但我们将在以下推导和最终算法中使用折扣γ。
2.2. Soft Value Functions and Energy-Based Models
  • 优化(2)中的最大熵目标为我们提供了培训随机策略的框架,但我们仍然必须选择这些策略的表示。 先前工作中的选择包括离散多项分布(O’Donoghue等,2016)和高斯分布(Rawlik等,2012)。 但是,如果我们想要使用可以代表复杂的多模式行为的非常一般的分布类别,我们可以选择使用表单中基于能量的一般策略:
    在这里插入图片描述
    其中E是能量函数,例如可以通过深度神经网络来表示。 如果我们使用E的通用函数近似,我们可以表示任何分布π(at | st)。 这些基于能量的模型与价值函数和Q函数的soft版本之间存在紧密联系。
    在这里插入图片描述

我们希望让智能体探索所有希望的状态,同时按照有希望的程度做优先级排序。为了用数学形式化这一思想,一种方式是直接以指数 Q 值的形式定义策略(图 3b,绿色分布)
在这里插入图片描述
其密度具有玻尔兹曼分布的形式,其中 Q 函数用作负能量(negative energy),其会为所有动作分配一个非零似然。因此,该智能体就能知晓所有可以解决该任务的行为,这能有助于该智能体适应条件变化,使得该智能体在某些解决方案不可行时也能够解决该任务。事实上,我们可以表明:通过能量形式定义的策略是最大熵强化学习目标函数(2)的一个最优解,这个函数只是将传统的强化学习目标与策略的熵加到了一起(Ziebart 2010)。学习这种最大熵模型的思想源自统计建模,其目标是在满足观察到的统计结果的同时找到具有最高熵的概率分布。比如说,如果该分布在欧几里德空间上且观察的统计结果是均值和协方差,那么其最大熵分布就是一个带有对应均值和协方差的高斯分布。在实践中,我们更喜欢最大熵模型,因为它们对未知的假设最少,同时也能匹配观察到的信息。

在这里插入图片描述
在这里插入图片描述

  • 定理1连接(2)中的最大熵目标和基于能量的模型,其中 Q s o f t / α Q_{soft}/\alpha Qsoft/α作为负能量, V s o f t / α V_{soft}/\alpha Vsoft/α作为log-partition函数

定理1的证明方法:
假设 π ~ \tilde \pi π~为(6)的形式,则有
在这里插入图片描述
所以可以推出:

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: “使用双重Q学习的深度强化学习”是一种强化学习算法,它使用双重(double)Q学习来解决传统Q学习中的估计误差问题。通过使用两个独立的Q网络来计算状态-行为值函数,可以减少估计误差,提高学习效率和稳定性。在深度强化学习中,该算法可以应用于诸如游戏、机器人控制等复杂任务。 ### 回答2: Deep Reinforcement Learning with Double Q-Learning(双Q学习的深度强化学习)是一种利用深度学习技术进行增强学习的方法。在传统的强化学习中,Q-Learning是最常用的算法。然而,传统的Q-Learning存在着过高估计(overestimation)的问题,即它会过度估计某些动作的价值,这会使得智能体在实际运用过程中效果下降。 Double Q-Learning便是为了克服这一问题而被提出的算法。 Double Q-Learning是将Q-Learning算法分解成两个独立的网络,并通过互相交替使用这两个网络的方式来消除过高估计。具体来说,Double Q-Learning的基本思想是采用一对Q函数,将它们互相制约,使每个Q函数只估计另一个Q函数所做出的贪心策略的Q值。因此,这种方法将学习由另一个Q函数选择的最佳动作。 Deep Reinforcement Learning with Double Q-Learning所做的改进是将双Q学习应用于深度神经网络中。这样可以在复杂的环境中获得更好的性能。深度学习网络可以自主提取及学习输入数据的特征,然后利用这些特征来预测下一个状态的价值。因此,深度学习网络可以训练出更好的Q值函数,从而使得智能体的决策更加准确和稳定。同时,使用双Q学习技术使得网络更加稳定,从而更容易训练出更加准确和高效的智能体。 总体来说,Deep Reinforcement Learning with Double Q-Learning是一种高效的增强学习方法,可以帮助智能体在复杂环境下学习最佳策略。Double Q-Learning技术可以有效地消除过高估计的问题并提高点估计Q函数的准确性。同时,深度神经网络可以在处理高维度状态空间时提高学习效率。 ### 回答3: 深度强化学习是一种通过不断试错的方式,使机器在特定环境下学习并改进其决策能力的算法。其中,双重Q学习是一种基于Q-learning的强化学习算法,其通过双重估计目标函数,从而提高学习的效率和稳定性。下面将详细介绍深度强化学习与双重Q学习的原理及其优缺点。 深度强化学习简介: 深度强化学习依赖于神经网络模型和回报函数来指导决策。该方法通过梯度下降算法来不断更新参数以优化模型。其中,Q-learning是一种基于值函数的学习方式,其依赖于动作价值Q函数来指导决策。在深度强化学习中,可以通过深度Q网络来实现Q函数的学习。 双重Q学习的原理: 在Q-learning算法中,估计Q函数的时候会涉及到目标值的计算,目标值即为当前状态下的最大Q值。由于这个最大值来自于学习目标的网络,因此它本身也是训练数据中的最大值。而事实上,Q-learning很容易会高估这些值,从而导致学习的波动性增强和性能的下降。为了解决这个问题,双重Q学习引入了两个Q网络,并通过一定的策略来选择其中的一个网络计算Q值。对于目标函数的计算,与之前不同的是,双重Q学习将估计Q值和选择动作的过程分开进行,从而减少了Q值的高估。 双重Q学习的优缺点: 优点: 1.双重Q学习可减少估计Q函数时的波动,从而提高了学习的稳定性和性能。 2.该算法可以避免Q值函数过高或过低的问题,从而提高学习效果。 3.可针对复杂的决策任务和环境设计较为复杂的网络结构以提高效率。 缺点: 1. 双重Q学习需要建立两个Q网络,因此需要的计算资源较大。 2. 该算法对于环境动态变化较大的任务较难优化。 总之,深度强化学习与双重Q学习为现代人工智能领域的研究和应用提供了一些有益的思路和方法。在实际应用中,需要结合具体问题的特点和实际情况进行选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值