【Proximal Distilled Evolutionary Reinforcement Learning 的翻译】

D_JQ

已于 2022-10-24 09:49:01 修改

阅读量217

点赞数

分类专栏：深度强化学习文章标签：深度学习 1024程序员节

于 2022-06-22 12:59:50 首次发布

本文链接：https://blog.csdn.net/dumao0620/article/details/125406094

版权

深度强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

多目标进化强化学习

摘要

强化学习在很多复杂环境中由于和 DNNs 结合取得了显著的效果，与此同时，遗传算法，作为RL 的竞争算法，在扩展到 DNNs 上解决一些挑战性任务的时候却鲜有成果。和二分法想法的不同的是，在现实世界中，进化和学习是不断相互作用的互补过程，最近提出的进化强化学习(ERL)框架已经证明了两种方法相结合对性能的共同好处。但是 ERL 没有充分解决遗传算法的可扩展问题。

本文中，我们发现，这个问题的根源在于dnn的简单遗传编码和传统的生物变异算子不幸结合。当应用于这些编码时，标准算子是破坏性的，会导致网络特征的灾难性遗忘；

我们提出一种初始算法 PDERL ，其特征是将进化算法和学习算法进行分层整合。PDERL的主要创新是使用了基于学习的变异算子，以弥补遗传表示的简单性。与传统算子不同，我们的方案满足了变异算子在直接编码的dnn上的功能要求；我们在OpenAI gym 的五种机器人运动设置中评估PDERL。我们的方法在所有测试环境中优于ERL，以及两种最先进的 RL 算法 PPO和TD3。

一、一些术语

文章链接: Proximal Distilled Evolutionary Reinforcement Learning

Deep Neural Networks(DNNs)	深度神经网络
Genetic algorithms(GAS)	遗传算法
Evolutionary reinforcement learning（ERL)	进化强化学习
Proximal distilled evolutionary reinforcement learning（PDERL)	近端蒸馏进化强化学习；
Genetic encoding	遗传编码
Variation operators	变异算子；
Genetic memory	遗传记忆；
hierarchical integration	分层整合
Genetic representation	遗传表示
Elite	精英

二、introduction

三、background

1. Evolutionary reinforcement learning

2. Genetic encoding and variation operators

四、方法

这部分介绍我们提出的 基于学习 的遗传算子，并且介绍他们如何和ERL相结合的。

4.1. the genetic memory-遗传记忆

ERL的种群有一个主要问题是：不直接利用actor在 population 中收集的个人经验；Population 种群不是从 RL agent 直接受益，从而进行学习提高；Agent 的个体经验是我们下一节将要介绍的新的算子的必要方面，因此 agent 需要空间去存储这些个体经验；

我们所做的第一个修改是：给种群的每个个体和 RL agent 配置一个很小的私有 buffer，用来存储他们最近的经验。所付出的代价是稍微增加存储区间。根据容量 k 的大小， buffer 也可以包括祖先的经验，因为在 buffer 中的 transition 可以覆盖多个种群，我们将这些 agent 的私有 buffer 称作遗传记忆；Policy 在和环境交互过程中，不单单像 ERL 中所做的那样存储自己的经验到 DDPG 的buffer 中，还存储到遗传记忆中；

在遗传记忆中的祖先经验通过变异算子引入，突变的子policy 完全继承父辈的遗传记忆。在交叉过程中， buffer 仅仅只是部分继承；交叉后代用来自父母双方各自遗传记忆的最近的一半 transitions 来填充它的缓冲区。

4. 2. Q-filtered distillation crossovers

在本节中，我们提出了一个Q-过滤的行为蒸馏交叉方法，它有选择地将两个父策略的行为合并到一个子策略中。与 n-points 交叉算子不同，该算子作用于表现型空间，而不是参数空间。

图1： Q-filtered 蒸馏交叉算法和 n-points 交叉算法的对比

图1： Q-filtered 蒸馏交叉算法和 n-points 交叉算法的对比。图1.知乎

对于种群中的一对父角色，交叉操作的工作如下。创建一个新的带有空的 genetic memory 的 agent，；此genetic memory 按照父类的 genetic memory 的相同比例覆盖填充。子 agent 通过模仿学习进行训练，去选择父类在新创建的遗传记忆中的 state 所采取的直接动作，同样的，这个过程可以被看做更一般的策略蒸馏，因为他的目的是蒸馏父辈的行为到子策略；

在这里插入图片描述

和传统的2016文献的策略蒸馏方法不同的是，此处两个父类网络都被涉及，而不是1个；这就带来了行为分歧的问题；两个父类策略可以在相同或者相似的 state 下采取完全不同的动作；这样就会导致一个问题，子策略不知道在每个状态下应该模仿哪个行为。此处提出方法的关键是，RL agent 的 critic 已经知道了某个状态和动作之下的 value；因此，它可以用来选择哪些 action 应该被 follow ，在规则和全局一致的方式下。我们提出了如下的 Q-filtered 动作克隆损失函数去训练子策略：

$\begin{aligned} L(C) &=\sum_{i}^{N_{C}}\left\|\mu_{z}\left(s_{i}\right)-\mu_{x}\left(s_{i}\right)\right\|^{2} \mathbb{I}_{Q\left(s_{i}, \mu_{x}\left(s_{i}\right)\right)>Q\left(s_{i}, \mu_{y}\left(s_{i}\right)\right)} \\ &+\sum_{j}^{N_{C}}\left\|\mu_{z}\left(s_{j}\right)-\mu_{y}\left(s_{j}\right)\right\|^{2} \mathbb{I}_{Q\left(s_{j}, \mu_{y}\left(s_{j}\right)\right)>Q\left(s_{j}, \mu_{x}\left(s_{j}\right)\right)} \\ &+\frac{1}{N_{C}} \sum_{k}^{N_{C}}\left\|\mu_{z}\left(s_{k}\right)\right\|^{2} \end{aligned}$

其中，NC是从两个父类 agent 的 genetic memory 中采集到的 batch 大小， ux 和 uy 分别代表确定性父类策略，uz是子agent的确定性策略, 指标函数 II 使用 RL agent 的 Q-network 函数来决定父类在每个状态下所采取的最好的动作。子策略被训练通过最小化最初的两个 terms 模仿这些动作。最后的term 是 L2 正则化从而阻止输出饱和正切双曲线激活。图1 方框图包含了这个新的交叉和 ERL n-points 交叉的对比。我们把带有交叉蒸馏的 ERL 蒸馏称为蒸馏进化强化学习；

我们注意到，虽然这个操作符的计算强度确实更高，但在相对较小的遗传记忆上进行少量的训练就足够了；另外，我们希望我们的方法的分布式实现来补偿产生的挂钟时间惩罚。我们把这项努力留给今后的工作。

4.3 .parent selection mechanism-父辈选择机制

如何给交叉算子选择父辈是一个有趣的问题；常规做法是定义一个交配得分函数m，这个函数有两个输入策略，有一个得分输出；得分越高的对组越容易被选中，我们设计两个方法去计算得分，贪心策略和基于距离策略；

贪心策略：得分 m
在这里插入图片描述
可以通过两个父辈的 fitness 之和来决定；这种选择大体提高了种群的稳定性，而且可以使不好的个体不被选择；

基于距离：基于距离得分可以通过所有可能策略的距离矩阵计算出来，越是不同的策略越容易被选择用来交配；关于’不同’的精确定义是基于距离矩阵dII，此处，我们提出了两个 policy 的所有行为空间的矩阵，采用如下形式：
在这里插入图片描述
此处的ρx和 ρy是两个 agents的状态访问分布；
这种距离衡量的是两个母系政策对各state采取的行动的预期差异，来自各state访问分布的混合。这一期望在实践中是通过从两个agents的遗传记忆中抽取大量样本来随机近似的。这种策略偏向于在种群中引入新行为，以牺牲稳定性为代价，因为匹配个体未被选择的概率增加了。

4.4 proximal mutations-（近端突变）

正如雷曼等人(2018)所表明的那样，高斯突变可能会对agent的行为产生灾难性的后果。实际上，即使是在梯度下降法中，policy更新的稳定性也是一个问题，在这种方法中，不适当的步长可能会对性能状况造成不可预测的后果。像PPO (Schulman等人2017年)这样的方法通过最小化KL 散度而变得非常稳定, 从而使新policy的行为接近旧policy。
在这里插入图片描述

基于上述动机，我们集成了安全变异算子 SM-G-SUM 和种群的基因记忆方法。该算子使用输出动作的每个维度在遗传记忆的一批NM转换上的梯度来计算动作对权重扰动的敏感性s:

$\boldsymbol{s}=\sqrt{\sum_{k}^{|\mathcal{A}|}\left(\sum_{i}^{N_{M}} \nabla_{\boldsymbol{\theta}} \mu_{\boldsymbol{\theta}}\left(s_{i}\right)_{k}\right)^{2}}$

这个敏感度用来量化每个权重的高斯扰动，式子是

$\theta \leftarrow \theta+\frac{x}{s}$

其中，x~（0，σI），σ是突变幅度超参数。

由此产生的算子产生的子policy 是在他们父母的行为附近。因此，我们将该算子称为近端突变(图2)，使用它的ERL版本称为近端进化(proximal Evolutionary)强化学习(PERL)。

虽然近端突变不明确使用学习，但它们依赖于policy 的容量去学习，或者换句话说，是不同的。如果没有这个特性，这些行为对参数扰动的敏感性就不能用解析法计算。

4.5 intergration-集成

新引进的算子的全部优点在他们一起使用的时候将得到发挥。Q-filter 蒸馏器将提高种群的稳定性并且可以使state-action对朝向更高的Q值区域。

近端突变提高种群的探索性和发现更好策略的能力；从评估部分可见，算子互相补充；我认为双层整合 with ERL 是 PDERL；

在这里插入图片描述

最终，PDERL 包含 learning 和 evolution 交互层。更高层次的交互通过种群和RL agent 之间的信息交互来实现。新引进的算子在遗传算子层次增加了一个较低层的交互。如图 3；PDERL

五、 evaluation

此部分评估所提出的方法的表现；而且更进一步的研究了所提出算子的表现；

5.1 experiment setup-环境设置-包括参数的选择

策略和 critic 网络的结构和 ERL相同；这些和ERL 共享的超参数和 Report [18] 有相同的数值，当然，也有几个例外。例如2D的Walker，同步速率 w 从10 下降到1 从而使更高的信息流从 RL agent 到种群。在相同的环境中，评估参数 e 从3增加到5，因为总奖励偏差随着 episode 不同。最后，环境 Hopper 和 Ant 的精英阶层的一部分从 0.3 下降到 0.2 。总体说，更高数量的精英提高了种群的稳定性。由于新算子的稳定性，使得该参数不需要更高的稳定值。
对于特定的PDERL的超参数，由于计算资源有限，我们很少进行调节。在接下来的内容中，我们报告所选择的值和考虑的值。交叉和突变的 batch size 分别是 NC=128 和 NM=256(搜索 64， 128， 256）;遗传记忆存储容量 k = 8k (2k, 4k, 8k, 10k), 蒸馏交叉的学习率是 10 ^(-3),(10-2, 10^-3, 10^-4, 10^-5), 且子 policy 被训练 12 epochs （4,8,12,16）。所有的这些训练过程使用 Adam 优化器。除非另有说明，否则使用贪婪父辈选择。与ERL一样，种群由k = 10个actor 组成。实验报告中，我们使用官方实现手段 ERL 和 TD3 ,和 baselines 中的 PPO；

5.2 performance evaluation - 性能评价

本节将新提出的方法所获得的平均奖励作为所经历的环境框架数量的函数来评估。结果报告了五个随机的种子。图4显示了5个 mujoco 环境的平均奖励和所有算法得到的标准偏差；

虽然PERL和DERL在多个复杂环境中带来了改进，但它们并不能在所有环境中都有很好的性能。其中 PERL 在稳定环境，例如 halfcheetah 和 hopper 中有效果，它们的总奖励在多个 rollouts 中方差很低。与此同时， DERL 在非稳定环境例如 walker2d 和 ant 中效果更好，因为此算法使种群朝向更高的 Q 值区域。相比之下，PDERL在所有设置下都表现良好，表明新引入的算子是互补的。PDERL在所有环境中都明显优于ERL和PPO，尽管采样效率通常低于TD3，但它最终会赶上来。最终，PDERL在《Swimmer》，《HalfCheetah》和《Ant》上的表现明显优于TD3，在Hopper和Walker2d上的表现也稍好一些。
在这里插入图片描述

表1 报告了所有的测试模型和环境的奖励分析。同时， videos of ERL 和 PDERL 在不同实验中的运行结果可以在链接中找到。下面的小节详细介绍了新引入的算子，并提供了一个 PDERL实现的改进的理由。
在这里插入图片描述

表1 中，所有环境中的表现。最好的均值用粗体，PERL在两种环境中略微优于PDERL，但是 PDERL 在所有环境中都表现良好。

5.3 crossover evaluation- 交叉评价

衡量交叉算子质量的一个很好的指标是后代相对于父母的 fitness 。图5绘制了Ant环境中10个随机选择的父对象的度量。每组条形给出了两个父样本的 fitness 和两类交叉方法得到的策略的 fitness。所有这些值都通过第一个父样本的适应度进行归一化。通过 n点交叉得到的孩子的表现通常比fitness 最好的父母类低40% ，与此同时，通过蒸馏得到的policy的 fitness 通常至少与父母的适应性一样好。

在这里插入图片描述

父类和子类的 state visitation 分布情况更清楚地反映了两个算子的情况。图6 显示的是 Ant 环境采集到的交叉算子分布。n点交叉产生了一种与父母的行为比较发散。相反，Q filter蒸馏交叉产生的策略，其行为包含父行为的最佳特征。新算子隐式地驱动种群中的每一个新代向Q值较高的区域移动。

在这里插入图片描述

5.4 mutation evaluation- 突变评价

在这里插入图片描述

图7说明： ant 环境的正态突变表现，近端突变的 fitness 显著高于高斯突变。 Fitness 和每组的父类相关。
图7 显示了 ant 环境中随机选择的 10 个父类的两种类型突变的子突变的fitness。大部分高斯突变产生的子策略的 fitness 要么小于要么 ==0；与此同时，近端突变所产生的的个体的 fitness 经常超过父类的拟合度。
在这里插入图片描述

图8:和之前一样，蓝色的等高线代表父级访问的状态分布，而红色的代表差异。通过近端突变获得的子在很大程度上继承了父母的行为，并获得了600的 fitness 的提升。高斯突变得到的行为与父辈的突变完全不同。父、子分布的KL差异(0.03和0.53)定量地证实了这一点；

正如当前章节描述，policy 的 state-vistation 分布揭示了高斯突变的破坏性行为；样本突变的轮廓如图8所示，被添加高斯噪声的策略完全不同于父类的行为，这个行为的突然改变将导致灾难遗忘，新的后代的表现为总奖励是 -187。与此相对，近端突变仅在 state visitation 分布上产生细微改变。由此获得的后代在很大程度上继承了父代的行为，并获得了显著更高的总奖励5496。