SAC:Soft Actor-Critic Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

Soft Actor-Critic Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 1801.01290

论文地址

https://arxiv.org/abs/1801.01290

个人翻译,并不权威

Tuomas Haarnoja
Aurick Zhou
Pieter Abbeel
Sergey Levine

Abstract 摘要

无模型深度强化学习(RL)算法
Model-free deep reinforcement learning(RL) algorithms
已经在一系列具有挑战性的决策和控制任务中得到了验证。
然而,这些方法通常面临两大挑战:
非常高的样本复杂度和脆弱的收敛特性,这需要细致的超参数调整。
这两个挑战都严重限制了这种方法在复杂现实领域的适用性。
本文提出了一种 off-policy actor-critic 的 深度强化学习算法deep RL algorithm
基于最大熵的学习框架 maximum entropy reinforcement learning framework
即 soft actor-critic
在这个框架中,actor的目标是期望回报最大化,同时熵也最大化。
也就是说,在完成任务的同时尽可能的随机地行动。
先前基于这个框架的深度学习方法被形式化为Q-learning方法。
通过结合off-policy更新和一个稳定的 stochastic actor-critic 公式,
我们的方法在一系列连续控制基准任务上达到了最先进的性能,优于以前的on-policy和off-plicy方法。
此外,我们证明,与其他off-policy的算法相比,我们的方法非常稳定,在不同的随机种子上获得非常相似的性能。

1. Introduction 介绍

无模型深度强化学习(RL)算法
Model-free deep reinforcement learning(RL) algorithms
已经应用于一系列具有挑战性的领域,从游戏(Mnih et al., 2013; Silver et al., 2016)到机器人控制(Schulman et al. 2015)。
RL与高容量函数逼近器(如神经网络)的结合有望实现广泛的决策和控制任务的自动化,但这些方法的在现实领域的广泛应用受到两大挑战的阻碍。
首先,无模型的深度强化学习方法model-free deep RL methods 在样本复杂度方面是出了名的昂贵。
即使是相对简单的任务也可能需要数百万步的数据收集,而复杂的高维观测行为可能需要更多的步骤。
第二,这些方法在超参数方面往往很脆弱:学习速率、探索常数和其他设置必须针对不同的问题进行仔细设置,才能获得良好的结果。
这两个挑战严重限制了无模型深度强化学习model-free deep RL 对现实任务的适用性。
深度强化学习方法 deep RL methods采样效率低的一个原因是on-policy learning:
一些最常用的深度强化学习算法deep RL algorithms,如 TRPO(Schulman et al.,2015), PPO(Schulman et al., 2017b) 或 A3C(Mnih et al., 2016),需要为每个梯度步骤收集新样本。
这很快就会变的非常昂贵,因为学习有效策略所需的梯度步和每一步的样本数会随着任务复杂性的增加而增加。
Off-policy 算法旨在重用过去的经验。
这在传统的策略梯度公式中并不直接可行,但对于基于Q-learning的方法来说相对简单(Mnih等人,2015)。
不幸的是,off-policy和带着神经网络的高维非线性函数近似器的结合对稳定性和收敛性提出重大挑战(Bhatnagar等人,2009)。
这种挑战在连续的状态空间和动作空间中进一步加剧,在连续的状态空间和动作空间中,经常使用一个单独的actor网络执行Q-learning中的最大化。
在这种情况下,一种常用的算法deep deterministic policy gradient (DDPG) (Lillicrap et al., 2015) 提供了样本有效学习,但由于其极端的脆弱性和超参数敏感性,使用起来非常困难(Duan, et al, 2016; Henderson et al., 2017)

我们探索如何设计一个有效且稳定的连续状态及动作空间的无模型深度强化学习算法。
为此我们借鉴了最大熵框架 maximum entropy framework, 该框架用熵最大化项扩充了标准的最大回报强化学习目标(Ziebart et al., 2008; Toussaint,2009; Rawlik et al.2012; Fox et al., 2016; Haarnoja et al. 2017)。
最大熵强化学习改变了RL目标,虽然可以使用temperature恢复原始目标。
更重要的是,最大熵公式在探索性和鲁棒性方面提供了实质的改进:
正如Ziebart(2010)所讨论的,最大熵策略在面对模型和估计错误时是稳健的,
正如(Haarnoja et al. 2017)所证明的,它们通过获得不同的行为来改进探索。
先前的工作已经提出了无模型的深度强化学习算法 model-free deep RL algorithms
这些算法执行熵最大化的on-policy learning(O’Donoghue et al. 2016),以及基于soft Q-learning的off-policy 方法及其变种(Schulman et al., 2017a; Nachum et al., 2017a; Haarnoja et al., 2017)。
然而,由于上述原因,on-policy变种受限于可怜的样本复杂度,
而off-policy变种需要在连续的动作空间中进行复杂的近似推理。

在本文中,我们证明了我们可以设计一个off-policy maximum entropy actor-critic algorithm,我们称之为 soft actor-critic (SAC), 它提供了高效的样本学习和稳定性。
该算法很容易扩展到非常复杂的高维空间任务,例如具有21个动作维度的theHumanoid 基准(Duan et al., 2016),其中off-policy方法如(DDPG)通常难以获得好的结果(Gu et al. 2016)。
SAC 还避免了基于soft Q-learning的先验最大熵算法中近似推理的复杂性和潜在的不稳定性。
本文给出了最大熵框架下策略迭代的收敛性证明,并在此基础上引入了一种基于近似的新算法,该算法可以用深度神经网络实现,我们称之为soft actor-critic。
我们提供的实验结果表明,soft actor-critic 在性能和样本效率上都比先前的off-policy和on-policy方法有显著的提升。
我们还比较了双延迟深度确定性策略梯度算法 twin delayed deep deterministic policy gradient algorithm (TD3) (Fujimoto et al., 2018),这是一项并行工作,提出了一种确定性算法,显著提升了DDPG。

2. Related Work 相关的工作

我们的soft actor-critic 算法包含三个关键组成部分:
一个actor-critic 架构具有独立的policy和value 函数网络,
一个off-policy公式,能够高效的重用先前收集的数据,
以及熵最大化以实现稳定性和探索性。
我们回顾了以前的工作,在本节中借鉴了这些想法。
Actor-critic 算法派生自策略迭代,策略迭代是在策略评估——计算策略的值函数
策略提升–使用价值函数获取一个更好的策略,之间交替。 (Barto et al., 1983; Sutton & Barto, 1998)
在大规模强化学习问题中,通常不可能运行这些步骤中的任一步以收敛,而是将价值函数和策略函数联合优化。
在这种情况下,policy被称为actor,value function被称为critic。
许多actor-critic 算法都是建立在标准的 on-policy policy gradient formulation 来更新actor(Peter & Schaal, 2008),其中许多算法也考虑了策略的熵,但他们没有最大化熵,而是将其作为正则化器(Schulman et al., 2017b, 2015; Mnih et al., 2016; Gruslys et al., 2017).
On-policy 训练有助于提高稳定性,但会导致样本复杂度较差。
通过引入off-policy样本和使用高阶方差减少技术 high order variance reduction techniques,在保持鲁棒性的同时,一直在努力提高样本效率(O’Donoghue et al., 2016; Gu et al. 2016)。
然而,完全的off-policy算法任然可以获得更好的效率。
一种特别流行的off-policy actor-critic 方法,DDPG(Lillicrap et al., 2015),它是确定性策略梯度deterministic policy gradient(Silver et al., 2014)算法的一个深度变体,它使用Q函数估计器 Q-function estimator 启用off-policy learning,以及一个最大化了这个Q-fucntion的 deterministic actor。
因此,这种方法既可以看做是一种确定性的actor-critic算法也可以看做是一种近似的Q-learning算法。
不幸的是,deterministic actor 网络和Q-function之间的相互作用通常使得DDPG极难稳定并且对超参数设置非常脆弱(Duan et al., 2016; Henderson et al., 2017)。
因此,很难将DDPG扩展到复杂的、高维的任务中,而on-policy 的策略梯度方法在这种情况下仍然倾向与产生最好的结果(Gu et al., 2016)。
我们的方法将off-policy actor-critic训练与一个stochastic actor相结合,进一步将带有熵最大化目标的actor取最大化熵。
我们发下,这实际上导致了一个相当稳定和可扩展的算法,在实践中,超过了DDPG的效率和最终性能。
类似的方法可以作为随机值梯度 stochastic value gradients (SVG(0)) 的 零步特例 zero-step special case 导出。(Heess et al., 2015)
然而,SVG(0)与我们的方法不同之处在于,它优化了标准的最大期望回报目标 standard maximum expected return objective,并没有使用单独的值网络 value network,这使得训练更加稳定。
最大熵强化学习优化策略 Maximum entropy reinforcement learning optimizes policies,使策略的期望回报expected return 和策略的期望熵expected entropy 都最大化。
从逆强化学习inverse reinforcement learning(Ziebart et al. 2008) 到最优控制 optimal control(Todorov,2008; Toussaint, 2009; Rawlik et al. 2012),这个框架被广泛应用于许多领域。
在引导策略搜索 guided policy search(Levine & Koltun, 2013; Levine et al., 2016),最大熵分布maximum entropy distribution被用于引导策略学习 guide policy learning 走向高回报区域。
最近,在最大熵学习的框架下,一些文献注意到了Q-learning和policy gradient方法之间的联系(O’Donoghue et al., 2016; Haarnoja et al., 2017; Nachum et al., 2017a; Schulman et al., 2017a)。
虽然大多数先前的无模型工作假设了离散的动作空间,但Nachum et al.(2017b)使用高斯近似最大熵分布,Haarnoja et al.(2017)使用训练的采样网络从最优策略中提取样本。
虽然 Haarnoja et al.(2017)提出的soft Q-learning 学习算法具有value函数和actor 网络,但它不是真正的actor-critic算法:
Q-function是对optimal Q-function的估计,除通过数据分布外,actor 不直接影响Q-function。
因此,Haarnoja et al.(2017)将actor网络作为一个近似的采样器,而不是actor-critic算法中的actor。
关键的是,这种方法的收敛性取决于采样器对真实后验概率的逼近程度。
相反,我们证明了无论策略参数化如何,我们的方法都能从给定的策略类收敛到最优策略。
此外,当从头开始学习时,这些先前的最大熵方法通常不会超过最先进的off-policy算法(例如 DDPG)的性能,尽管他们可能有其他好处,例如改进的探索和易于微调。
在我们的实验中,我们证明了我们的soft actor-critic算法实际上超过了现有的最先进的off-policy 深度强化学习算法一大截。

3.Perliminaries 预备工作

本文首先介绍符号的概念,并对标准和规范进行了总结,最大熵强化学习框架。

3.1 Notation 符号

我们解决在连续动作空间的策略学习。
我们考虑一个无限-视界的马尔科夫决策过程(MDP),
由元组
在这里插入图片描述

定义,其中状态空间为

在这里插入图片描述

和动作空间

在这里插入图片描述

是连续的,并且未知的状态转移概率

在这里插入图片描述

在这里插入图片描述

表示在给定当前状态
在这里插入图片描述

和动作
在这里插入图片描述

后, 给出下一时刻状态

在这里插入图片描述

的概率密度,
每次转换是环境发出有界的reward

在这里插入图片描述

在这里插入图片描述

我们使用

在这里插入图片描述

在这里插入图片描述

表示由策略

在这里插入图片描述

引起的轨迹分布的状态和状态作用的边界。

3.2 Maximum Entropy Reinforcement Learning

标准的强化学习最大化奖励和的期望,

在这里插入图片描述

我们将考虑一个更一般的最大熵目标。
它通过在

在这里插入图片描述

上增加目标的期望熵来支持随机策略。

在这里插入图片描述

temperature 参数α决定了熵项相对于reward的相对重要性,
从而控制了最优策略的随机性。

最大熵的目标maximum entropy objective 不同于传统强化学习中使用的
标准最大期望奖励目标standard maximum expected reward objective,尽管传统目标可以在

在这里插入图片描述

的极限下恢复。
本文的其余部分,我们将省略显示的写temperature,因为它总可以通过按

在这里插入图片描述

缩放包含到奖励中。

这一目标在概念和实践上都有许多优点。
首先,这个策略鼓励进行更广泛的探索,同时放弃显然毫无希望的途径。
其次,该策略可以捕获多种接近最优的行为模式。
在多个操作看起来同样有吸引力的问题环境中,策略将为这些操作提供相同的概率质量。
最后,之前的工作已经观察到了对这一目标的改进探索(Haarnoja et al., 2017; Schulman el al., 2017a),
在我们实验中,我们观察到,与优化传统RL目标函数的最新方法相比,它大大提高的学习效率。
通过引入折扣因子γ,是期望回报和熵之和是有限的,我们可以将目标推广到无限期问题。
写下无限视界的情况下的最大熵目标耗时复杂(Thomas, 2014),并放到附录A。

以往的方法都是直接求解最优Q-function,从中可以恢复最优策略(Ziebart et al.,2008; Fox et al.,2016; Haarnoja et al., 2017)。
我们将讨论如何通过策略迭代公式设计actor-critic算法,而不是评估当前策略的Q-function,并通过off-policy 梯度更新 更新策略。
虽然这种算法以前已经被提出用于传统的强化学习,但据我们所知,
我们的方法是最大熵学习框架maximum entropy reinforcement learning framework 中的第一种off-policy actor-critic方法。

4. From Soft Policy Iteration to Soft Actor-Critic

我们的off-policy soft actor-critic 算法可以从策略迭代方法的最大熵变体开始推导。
我们首先给出这个推导,验证相应的算法从其密度类density class收敛到最优策略,然后在此基础上提出一个实用的深度强化学习方法。

4.1. Derivation of Soft Policy Iteration

我们首先导出软策略迭代 soft policy iteration,这是一种给学习最优最大熵策略optimal maximum entropy 的通用算法,
它在最大熵框架下交替进行策略评估和策略改进。
我们的推导是基于个表格环境tabular settting,使理论分析和收敛性保证,我们扩展到一般的连续环境 general contiuous setting在下一节这种方法。
我们将证明软策略迭代soft policy iteration 收敛到一组策略中的最优策略,例如对应于一组参数化的密度。

在软策略迭代soft policy iteration 的策略评估policy evaluation 步骤中,我们希望根据等式1中的最大熵目标maximum entropy objective来
计算策略π的值。

对于固定的策略,soft Q-value 可以从任意函数 Q开始 迭代计算。

在这里插入图片描述

重复应用一个修正的Bellman backup operator

在这里插入图片描述

通过

在这里插入图片描述

其中

在这里插入图片描述

是一个软的状态值函数 soft state value function
通过重复应用

在这里插入图片描述

我们可以获得任意策略 π 的软值函数,如下所示。

Lemma 1 (Soft Policy Evaluation) 引理1 (软策略评估)
考虑soft Bellman backup operator

在这里插入图片描述

在等式2和映射

在这里插入图片描述

定义

在这里插入图片描述

然后序列Qk将会收敛到π的soft Q-value, 当

在这里插入图片描述

证明见附录B.1.

在策略改进阶段 policy improvement step,我们将策略更新为新Q-function的指数形式。
这种特殊的更新选择可以保证在其软价值soft value方面改进策略。
由于在实践中我们更喜欢易于处理的策略,因此我们将另外将策略限制为某些策略集Π,
例如,这些策略集可以对应到一个参数化分布族(如高斯分布)。
考虑到π∈ ∏的约束,我们将改进的策略投影到期望的策略集合中。
虽然原则上我们可以选择任何投影,但使用由Kullback-Leibler散度定义的信息投影是很方便的。
换句话说,在策略改进步骤中,对于每个状态,我们更新策略根据:

在这里插入图片描述

配分函数

在这里插入图片描述

规范化了分布,虽然它在一般情况下是难以处理的,但它对新策略的梯度没有贡献,因此可以忽略,如下一节所述。
对于这个预测,我们可以证明,新的,预测的策略相对于方程1中的目标具有更高的值。
我们用引理2形式化了这个结果。

Lemma 2 (Soft Policy Improvement).引理2(软策略改进)。

在这里插入图片描述

在这里插入图片描述

为等式4中定义的极小化问题的优化器。

那么

在这里插入图片描述

对于所有

在这里插入图片描述

证明见附录B.2.

全软策略迭代 full soft policy iteration算法在软策略评估soft policy evaluation 和
软策略改进soft policy improvement 步骤之间交替进行,并可证明收敛到Π中策略中的最优最大熵策略(定理1)。
虽然这个算法可以证明找到最优解,但我们只能在表格的情况下用它的精确形式来实现。
因此,我们接下来将对连续域的算法进行近似,在连续域中,我们需要依赖函数近似器来表示Q-values,
并且运行这两个步骤直到收敛,这在计算上过于昂贵。
这种近似产生了一种新的实用算法,称为soft actor-critic。

Theorem 1 (Soft Policy Iteration).定理1 (软策略迭代)
软策略评估和软策略改进的重复应用从任意

在这里插入图片描述

收敛到一个策略

在这里插入图片描述

例如:

在这里插入图片描述

在这里插入图片描述

对于所有

在这里插入图片描述

假设

在这里插入图片描述

证明见 附录B.3.

4.2. Soft Actor-Critic

如上所述,大型连续域要求我们导出软策略迭代的实用近似值。
为此,我们将对Q函数和策略使用函数逼近器,而不是对收敛性进行评估和改进,而是交替的使用随机梯度下降法对两个网络进行优化。
我们考虑一个参数化的状态价值函数 state value function

在这里插入图片描述

soft Q-funcion

在这里插入图片描述

和一个易处理的策略

在这里插入图片描述

这些网络的参数分别是 ψ, θ, 和 φ。

例如,值函数可以建模表达神经网络 expressive neural networks,
策略可以建模为均值和协方差均由神经网络给出的高斯分布。
接下来,我们将导出这些参数向量的更新规则。

状态值函数逼近软值soft value。
原则上不需要为状态值包含单独的函数逼近器,因为它与Q函数和公式3中的策略有关。
这个数量可以送当前策略的单个样本中估计,而不引入偏差,但再实际应用中,
包括一个单独的软值函数逼近器可以稳定训练,并且便于其他网络同时训练。
软值函数soft value function被训练最小化平方残差。

在这里插入图片描述

其中D是以前采样的状态和动作的分布,或者是重放缓冲区。
方程5的梯度可以用无偏估计量来估计。

在这里插入图片描述

根据当前策略对操作进行采样,而不是重放缓冲区。

在这里插入图片描述

通过训练soft Q-function 参数,使soft Bellman residual 最小。

在这里插入图片描述

其中

在这里插入图片描述

同样可以用随机梯度优化。

在这里插入图片描述

更新利用了目标值网络target value network
其中,

在这里插入图片描述

可以使网络权重的指数移动平均值,这已经证明可以稳定训练(Mnih et al., 2015)。
或者,我们可以定期更新目标权重以匹配当前值函数的权重(参见附录E)。
最后,可以通过直接最小化等式4中的期望KL散度来学习策略参数。

在这里插入图片描述

最小化

在这里插入图片描述

有几个选项。
策略梯度方法的一个典型解决方案是是用似然比梯度估计器 likelihood ratio gradient estimator(Williams, 1992),
它不需要通过策略和目标密度网络反向传播梯度。
然而,在我们的例子中,目标密度target density是 Q-function, 它由一个可以被区分的神经网络来表示,
因此很方便地应用重参数化技巧来代替,从而得到一个较低的方差估计。
为此,我们使用神经网络变换重新参数化策略。

在这里插入图片描述

在这里插入图片描述

其中

在这里插入图片描述

是输入噪声矢量,从某个固定分布(如球面高斯分布)采样。
我们现在可以把等式10中的目标改写为

在这里插入图片描述

其中

在这里插入图片描述

是用

在这里插入图片描述

隐式定义的, 我们注意到配分函数与φ 无关,因此可以省略。
我们可以用

在这里插入图片描述

近似等式12的梯度。

式中,

在这里插入图片描述

在这里插入图片描述

处计算。
这种无偏梯度估计器将DDPG类型的策略梯度(Lillicrap et al., 2015)扩展到任何可处理的随机策略。
我们的算法还利用两个Q-function来缓解策略改进步骤中的正偏差,
这一步会降低基于价值的方法的性能(Hasselt, 2010; Fujimoto et al., 2018)
特别地,我们用参数

在这里插入图片描述

参数化连个Q-function,并独立地训练他们来优化

在这里插入图片描述

如(Fujimoto et al. 2018)我们随后使用等式6中地值梯度和等式13中地策略梯度地Q-function地最小值。
虽然我们的算法可以学习具有挑战性地任务,包括一个21维地类人机器人,只是用一个Q-function,
但我们发现两个Q-function显著加快了训练速度,特别式在较难地任务上。
算法1描述了完整的算法。
该方法在使用当前策略从环境中收集经验和使用从重放缓冲区采样的批中的随机梯度更新函数近似器之间交替进行。
在实践中,我们采用单个环境步骤,然后是一个或多个梯度步骤(所有超参数加附录D)。
使用重放缓冲区中的off-policy数据式可行的,因为值估计器和策略都可以完全根据off-policy策略数据进行训练。
该算法对策略的参数化式不可知的,只要可以对任意的状态动作元组进行计算。
在这里插入图片描述

5 Experiments 实验

我们实验评估的目的是为了了解我们的方法的sample complexity和稳定性如何与先前的off-policy和on-policy深度强化学习进行比较。
我们比较了我们的方法与以前的技术再一系列具有挑战性的连续控制任务从OpenAI gym benchmark suite (Brockman et al., 2016), 并对rllab 实现的仿人任务进行了研究(Duan et al., 2016)。
尽管更简单的任务可以通过各种不同的算法解决,但更复杂大的基准测试,如21维仿人(rllb),使用off-policy算法是非常困难的(Duan et al., 2016)。
算法的稳定性对性能也起着很大的作用:
更简单的任务是调整参数以获得更好的结果变得更实际,而对于最难的基准测试上更敏感的算法来说,
已经很窄的有效超参数范围变得非常小,导致性能较差(Gu et al., 2016)。
我们将我们的方法与深度确定性策略梯度 deep deterministic policy gradient (DDPG) (Lillicrap et al., 2015)进行了比较,
该算法被认为是更有效的off-policy 深度强化学习方法之一(Duan et al., 2016);
近端策略优化(PPO) (Schulman et al., 2017b),一种稳定有效的on-policy 策略梯度算法;
和soft Q-learning(SQL) (Haarnoja et al., 2017),
一种用于学习最大熵策略 learning maximum entropy policies 的最新off-policy算法。
我们的SQL实现还包括了两个Q-fucnitons,我们发现它们可以提高大多数环境中的性能。
此外,我们使用作者提供的实现,将其twin delayed deep deterministic policy gradient algorithm(TD3)(Fujimoto et al., 2018),
进行了比较。 这是DDPG的一个扩展,同时提出了我们的方法,该方法首先将double Q-learning trick 以及其他改进应用于连续控制。
我们在附录E中包括了置信域路径一致性学习 trust region path consistency learning (trust PCL) (Nachum et al., 2017b)
和 SAC的两个其他变体。 我们关闭了探索噪声 exploration noise以评估DDPG和PPO。
对于不显示注入探测噪声exploration noise的最大熵算法,我们要么用exploration noise(SQL)进行估计,
要么用mean action(SAC)进行估计。 我们的SAC实现的源代码和视频可以在线获得。
github.com/haarnoja/sac
sites.google.com/view/soft-actor-critic

5.1. Comparative Evaluation

比较评估 图1 显示DDPG、PPO和TD3训练期间评估的总平均回报。
我们用不同的随机种子训练每个算法的五个不同实例,每个实例每1000个环境步进行一次评估卷展 evaluation rollout。
实线对应于平均值,阴影区域对应于五次试验的最小和最大回报。
结果表明,总体而言,SAC在较容易的任务上表现与基线方法相当,在学习速度和最终表现方面,SAC在较难的任务上都有较大优势。
例如,DDPG未能在Ant-v1,HumanoidV1和Humanoid(rllab)上取得任何进展,这一结果得到了先前工作的证实(Gu et al., 2016; Duan et al., 2016)。
SAC的学习速度也比PPO快得多,因为PPO需要在更高纬度和复杂任务上稳定地学习大量地批处理。
另一种最大熵RL算法SQL也可以学习所有的任务,但它比SAC慢,渐近性能较差。
SAC在我们实验中获得的定量结果也非常好地与之前工作中其他方法报告的结果进行了比较(Duan et al.,2016; Gu et al., 2016; Henderson et al., 2017),
表明SAC在这些基准任务中的样本效率和最终表现都超过了最新水平。
附录D列出了本实验中用于SAC的所有超参数。

在这里插入图片描述

5.2. Ablation Study

消融研究 上一节的结果表明,基于最大熵原理maximum entropy priciple的算法在具有挑战性的任务(如仿人任务)上优于传统的RL方法。
在本节中,我们进一步研究SAC的哪些特定组件对于良好性能非常重要。
我们还研究了SAC对一些重要的参数的敏感性,即奖励缩放和目标值更新平滑常数。
Stochastic vs. deterministic policy. 随机和确定性策略。
Soft actor-critic 通过最大熵目标maximum entropy objective 学习随机策略 stochastic policies。
熵entropy出现在policy and value function中,在策略policy中,熵防止了策略方差policy variance的过早收敛(等式 10)。
在值函数中,它通过增加导致高熵行为的状态空间区域的值来鼓励探索(等式5)。
为了比较策略的随机性和熵最大化对性能的影响,我们将SAC的一个确定性变量与之进行了比较,除了
有两个Q-functions,使用硬目标更新,没有单独的target actor使用固定而不是学学习的探索噪音 exploration noise。
图2 比较了两个变体的五个单独运行,并用不同的随机种子初始化。
Soft actor-critic 表现的更一致,而确定性变异体在种子间表现出非常高的变异性,表明稳定性大大降低。
从图中可以看出,学习熵最大化的随机策略可以极大的稳定训练。
这对于更困难的任务尤为重要,因为在这些任务中,调整超参数是一项挑战。
在这个比较中,我们使用应更新更新target value network权重,通过定期覆盖target network参数来匹配当前value network(所有基准任务的平均性能比较见附录E)

Policy evaluation. 策略评估。
由于SAC收敛于随机策略,因此在最后使用最终策略具有确定性以获得最佳性能是有益的。
为了评估,我们通过选择策略分布的平均值来近似最大后验行动。
图3(a)比较了使用此策略获得的训练回与评估回报,表明确定性评估会产生更好的性能。
需要注意的是,所有的训练曲线都描述了奖励的综合,这与SAC和其他最大熵RL算法(包括SQL和Trust-PCL)优化的目标不同,后者也最大化了策略的熵。

Reward scale.奖励缩放。
Soft actor-critic 对奖励信号的标度特别敏感,因为它服务于基于能量的最优策略的温度,从而控制其随机性。
较大的奖励幅度对应较低的条目。
图3(b) 显示了当reward scale 变化时,learning performance 如何变化:对于较小的 reward magnitudes,策略几乎一致,因此无法利用reward signal,导致performance 大幅下降。
对于较大的reward magnitudes,模型一开始学习速度很快,但随后策略几乎是确定的,由于缺乏足够的探索,导致很差的局部极小值。
通过适当的reward scaling, 该模型平衡了探索和开发,提高了学习速度和渐近性能。
在实践中,我们发现reward scale是唯一需要调整的超参数,它作为最大熵框架中温度大的倒数的自然解释为如何调整扎个参数提供了很好的直觉。

Target network update. 任务网络更新。
通常使用一个单独的target value network来缓慢跟踪actual value function,以提高稳定性。
我们使用平滑常数smoothing constant τ的 指数移动平均值 exponentially moving average 来更新目标值网络权重 target value network weights,这在以前的工作中是常见的(Lillicrap et al., 2015; Mnih et al., 2015)。
值1对应于每次迭代时直接复制权重的应更新,值0对应于根本不更新目标。
在图3©中,我们比较了τ变化时SAC的性能。
大τ会导致不稳定性,小τ会使训练变慢。
然而,我们发现τ的合适值范围相对较宽,我们在所有任务中使用相同的值(0.005)。
在图4(附录E)中,我们还将其与SAC的另一个变体进行了比较,在SAC中,我们不使用指数移动平均法,而是每1000个梯度步将当前网络权重直接复制到目标网络中。
我们发现这中变体受益于在环境步之间采取多个梯度步骤,这可以提高性能,但也增加了计算成本。

在这里插入图片描述
在这里插入图片描述

6. Conclusion 结论

我们提出了 soft actor-critic (SAC),一种 off-policy maximum entropy deep reinforcement learning algorithm, 改算法在保持熵最大化和稳定性的同时,提供了有效的样本学习。
我们得理论结果得到了软策略迭代 soft policy iteration,我们证明了软策略迭代收敛到最优策略。
从这个结果,我们可以建立一个soft actor-critic 算法,我们的经验表明,它优于最先进的off-policy deep RL methods,包括off-policy DDPG算法和on-policy PPO算法。
事实上,这种方法的样本效率实际上大大超过了DDPG。
我们的结果表明,随机的,熵最大化的强化学习算法可以提供一个有希望的途径来提高鲁棒性和稳定性,并进一步探索最大熵方法,包括包含二阶信息的方法(例如,信任区域(Schulman et al.)。,更具表现力的策略课程是未来工作的一个令人兴奋的途径

Acknowledgments

We would like to thank Vitchyr Pong for insightful discussions and help in implementing our algorithm as well as
providing the DDPG baseline code; Ofir Nachum for offering support in running Trust-PCL experiments; and George
Tucker for his valuable feedback on an early version of this paper. This work was supported by Siemens and Berkeley
DeepDrive

References

Barto, A. G., Sutton, R. S., and Anderson, C. W. Neuronlike
adaptive elements that can solve difficult learning control problems. IEEE transactions on systems, man, and
cybernetics, pp. 834–846, 1983.
Bhatnagar, S., Precup, D., Silver, D., Sutton, R. S., Maei,
H. R., and Szepesv´ari, C. Convergent temporal-difference
learning with arbitrary smooth function approximation.
In Advances in Neural Information Processing Systems
(NIPS), pp. 1204–1212, 2009.
Brockman, G., Cheung, V., Pettersson, L., Schneider, J.,
Schulman, J., Tang, J., and Zaremba, W. OpenAI gym.
arXiv preprint arXiv:1606.01540, 2016.
Duan, Y., Chen, X. Houthooft, R., Schulman, J., and Abbeel,
P. Benchmarking deep reinforcement learning for continuous control. In International Conference on Machine
Learning (ICML), 2016.
Fox, R., Pakman, A., and Tishby, N. Taming the noise in
reinforcement learning via soft updates. In Conference
on Uncertainty in Artificial Intelligence (UAI), 2016.
Fujimoto, S., van Hoof, H., and Meger, D. Addressing function approximation error in actor-critic methods. arXiv
preprint arXiv:1802.09477, 2018.
Gruslys, A., Azar, M. G., Bellemare, M. G., and Munos, R.
The reactor: A sample-efficient actor-critic architecture.
arXiv preprint arXiv:1704.04651, 2017.
Gu, S., Lillicrap, T., Ghahramani, Z., Turner, R. E., and
Levine, S. Q-prop: Sample-efficient policy gradient with
an off-policy critic. arXiv preprint arXiv:1611.02247,
2016.
Haarnoja, T., Tang, H., Abbeel, P., and Levine, S. Reinforcement learning with deep energy-based policies. In
International Conference on Machine Learning (ICML),
pp. 1352–1361, 2017.
Hasselt, H. V. Double Q-learning. In Advances in Neural
Information Processing Systems (NIPS), pp. 2613–2621,
2010.
Heess, N., Wayne, G., Silver, D., Lillicrap, T., Erez, T., and
Tassa, Y. Learning continuous control policies by stochastic value gradients. In Advances in Neural Information
Processing Systems (NIPS), pp. 2944–2952, 2015.
Henderson, P., Islam, R., Bachman, P., Pineau, J., Precup,
D., and Meger, D. Deep reinforcement learning that
matters. arXiv preprint arXiv:1709.06560, 2017.
Kingma, D. and Ba, J. Adam: A method for stochastic
optimization. In International Conference for Learning
Presentations (ICLR), 2015.
Levine, S. and Koltun, V. Guided policy search. In International Conference on Machine Learning (ICML), pp. 1–9,
2013.
Levine, S., Finn, C., Darrell, T., and Abbeel, P. End-to-end
training of deep visuomotor policies. Journal of Machine
Learning Research, 17(39):1–40, 2016.
Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez,
T., Tassa, Y., Silver, D., and Wierstra, D. Continuous
control with deep reinforcement learning. arXiv preprint
arXiv:1509.02971, 2015.
Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A.,
Antonoglou, I., Wierstra, D., and Riedmiller, M. Playing
atari with deep reinforcement learning. arXiv preprint
arXiv:1312.5602, 2013.
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness,
J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al. Human-level control
through deep reinforcement learning. Nature, 518(7540):
529–533, 2015.
Mnih, V., Badia, A. P., Mirza, M., Graves, A., Lillicrap,
T. P., Harley, T., Silver, D., and Kavukcuoglu, K. Asynchronous methods for deep reinforcement learning. In
International Conference on Machine Learning (ICML),
2016.
Nachum, O., Norouzi, M., Xu, K., and Schuurmans, D.
Bridging the gap between value and policy based reinforcement learning. In Advances in Neural Information
Processing Systems (NIPS), pp. 2772–2782, 2017a.
Nachum, O., Norouzi, M., Xu, K., and Schuurmans, D.
Trust-PCL: An off-policy trust region method for continuous control. arXiv preprint arXiv:1707.01891, 2017b.
O’Donoghue, B., Munos, R., Kavukcuoglu, K., and Mnih, V.
PGQ: Combining policy gradient and Q-learning. arXiv
preprint arXiv:1611.01626, 2016.
Peters, J. and Schaal, S. Reinforcement learning of motor
skills with policy gradients. Neural networks, 21(4):682–
697, 2008.
Rawlik, K., Toussaint, M., and Vijayakumar, S. On stochastic optimal control and reinforcement learning by approximate inference. Robotics: Science and Systems (RSS),
2012.
Schulman, J., Levine, S., Abbeel, P., Jordan, M. I., and
Moritz, P. Trust region policy optimization. In International Conference on Machine Learning (ICML), pp.
1889–1897, 2015.
Schulman, J., Abbeel, P., and Chen, X. Equivalence between policy gradients and soft Q-learning. arXiv preprint
arXiv:1704.06440, 2017a.
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and
Klimov, O. Proximal policy optimization algorithms.
arXiv preprint arXiv:1707.06347, 2017b.
Silver, D., Lever, G., Heess, N., Degris, T., Wierstra, D.,
and Riedmiller, M. Deterministic policy gradient algorithms. In International Conference on Machine Learning
(ICML), 2014.
Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L.,
van den Driessche, G., Schrittwieser, J., Antonoglou, I.,
Panneershelvam, V., Lanctot, M., Dieleman, S., Grewe,
D., Nham, J., Kalchbrenner, N., Sutskever, I., Lillicrap, T.,
Leach, M., Kavukcuoglu, K., Graepel, T., and Hassabis,
D. Mastering the game of go with deep neural networks
and tree search. Nature, 529(7587):484–489, Jan 2016.
ISSN 0028-0836. Article.
Sutton, R. S. and Barto, A. G. Reinforcement learning: An
introduction, volume 1. MIT press Cambridge, 1998.
Thomas, P. Bias in natural actor-critic algorithms. In International Conference on Machine Learning (ICML), pp.
441–448, 2014.
Todorov, E. General duality between optimal control and
estimation. In IEEE Conference on Decision and Control
(CDC), pp. 4286–4292. IEEE, 2008.
Toussaint, M. Robot trajectory optimization using approximate inference. In International Conference on Machine
Learning (ICML), pp. 1049–1056. ACM, 2009.
Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine
learning, 8(3-4):229–256, 1992.
Ziebart, B. D. Modeling purposeful adaptive behavior with
the principle of maximum causal entropy. Carnegie Mellon University, 2010.
Ziebart, B. D., Maas, A. L., Bagnell, J. A., and Dey, A. K.
Maximum entropy inverse reinforcement learning. In
AAAI Conference on Artificial Intelligence (AAAI), pp.
1433–1438, 2008.

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值