目录
论文链接
摘要
Model free deep reinforcement learning 算法已经在许多富有挑战性的控制任务上被验证。然而,这些方法通常都受到两个主要挑战的制约:非常高的采样复杂度和脆弱的收敛特性,需要非常仔细的超参数调整才可工作。这些挑战严重限制了这些方法在复杂的真实环境中的应用。在本文中,我们提出了soft actor critic(SAC),一种基于最大熵框架的异策actor-critic深度强化学习算法。在这一框架下,actor的目标不仅是最大化累计汇报,同时也要最大化熵。这就意味着,在完成任务的前提下,使得actor尽可能地向随机策略靠近。以往基于这一框架的方法已经形式化成Q-learning 方法。通过结合异策更新和任意一个稳定的actor-critic形式,我们的方法能够在一系列连续控制任务中达到最先进的表现,超过了先前的同策和异策方法。更进一步的,我们证明了我们的方法非常稳定,在不同的随机种子下都达到了非常相似的结果。
Introduction
Model free deep reinforcement learning算法已经被应用到了很多富有挑战性的领域,从游戏到机器人控制。将强化学习和表达能力强的函数近似器(如神经网络)相结合能够使得一系列决策和控制任务变得自动化。然而,许多的方法在真实环境下的应用都受到了两个主要挑战的阻碍。首先,众所周知,model-free DRL的采样效率极低。甚至于非常简单的任务都需要数百万步的数据采集,更复杂、高维度的行为可能需要更多。第二,这些方法都对它们的超参数非常敏感:学习率、探索常数和一些其他的设置必须为不同的任务非常小心地设置合适的值。这两个挑战严重限制了model-free DRL在真实环境中的应用。
导致DRL采样效率如此低下的原因之一是同策学习。一些最常用的DRL算法,如TRPO、PPO、A3C都需要在每一个梯度步中采集新的数据。因为随着任务的复杂度提高,步数将会提高,导致这成为非常昂贵的操作。异策算法则能够重复利用之前的经验。这在策略梯度法中并不十分适用,但在基于Q-learning的方法中是非常直接的。不幸的是,将异策学习和高维、非线性的函数近似(如神经网络)结合起来将导致训练稳定性和收敛性上的问题。这一问题在连续状态和连续动作上更加恶化。在这一设定下,一个常用的算法DDPG提供了采样有效的学习,但是它严重依赖于超参数的调整。
我们探索了如何在连续的状态空间和动作空间设计一种高效并稳定的model-free DRL算法。为此我们将目光投向最大熵框架,也就是在标准的最大化反馈的目标上加上了最大化熵的部分。虽然最大熵强化学习改变了强化学习的目标,但是原始的目标函数仍然能够通过一个调整系数来恢复。更重要的是,最大熵模型在探索和鲁棒性上提供了本质上的提升。在先前的工作中指出,最大熵策略在面对模型和估计误差时是鲁棒的,同时通过获取多样的行为动作提升了探索性。先前的工作已经提出了同策的最大熵算法和异策的最大熵Q学习方法。然而,如上所说,同策算法的采样效率很低,而异策Q学习算法在连续的动作空间中还需要复杂的近似算法才能work。
在本文中,我们展示了我们提出的一种异策最大熵actor-critic算法,我们称之为SAC算法,它能够同时提供高效的采样和稳定性。本算法能够拓展到非常复杂且高维的任务,如有21维动作控件的humanoid benchmark。DDPG算法在该benchmark上很难得到一个号的结果。SAC同时避免了在先前的最大熵Q学习中出现的高复杂度和可能的不稳定性。我们在最大熵框架下提供了一个策略迭代的收敛证明,随后基于此提出了一种易于用神经网络来实现的新算法。我们的实验结果表明SAC能够在性能和采样效率上都优于先前的异策和同策方法。我们同时将我们的方法和TD3进行比较,这是目前对DDPG的一个改进工作。
相关工作
略
背景
本章介绍强化学习和最大熵框架的基本概念
符号表示
略
最大熵强化学习
标准的强化学习最大化累计回报。我们将考虑一个更通用的最大熵目标函数如下,这将使得产生的策略更加随机化。
J ( π ) = ∑ t = 0 T E [ r ( s t , a t ) + α H ( π ( ⋅ ∣ s t ) ) ] J(\pi)=\sum_{t=0}^{T}\mathbb{E}[r(s_t, a_t)+\alpha H(\pi(\cdot|s_t))] J(π)=t=0∑TE[r(st,at<