进化强化学习:Combining Evolution and Deep Reinforcement Learning for Policy Search: a Survey

本文探讨了将进化算法与深度强化学习(RL)结合以提升策略搜索性能的方法。主要动机是通过结合进化算法的适应度选择和RL的梯度优化,减少梯度估计的误差。文章提到了多种结合方式,如RL代理注入、RL梯度添加、从RL演员演化以及使用代理适应度的替代健身函数,以提高样本效率和性能。其中,关键挑战包括评估代理的样本效率和进化选择步骤的准确性。
摘要由CSDN通过智能技术生成

Combining Evolution and Deep Reinforcement Learning for Policy Search: a Survey

1、Evolution of policies for performance

在这里插入图片描述
图1:结合深度神经进化和深度RL的算法的一般模板。主体群体与环境相互作用,并产生由状态、行动和奖励组成的轨迹。从左边看,一个进化循环根据它们的适合度选择和进化这些代理,这是在轨迹上整体计算的。从右边看,深度RL循环使用存储在重放缓冲区中的轨迹的基本步骤上计算的梯度来改进一个或几个代理。

将进化和深度RL相结合的主要动机是结合可能带来的性能改进。例如,通过简单的适应度景观和简化版本的组件的简单实验,将进化和RL结合起来可以证明比单独使用两者中的任何一个更好。为什么会这样?
其中一种解释如下。深度RL的核心策略梯度方法的一个弱点是,它们基于有限的样本集计算真实梯度的估计值。由于估计的高方差,这个梯度可能是非常错误的,但它被盲目地应用于当前的政策,而没有检查这实际上改善了它。相比之下,进化方法的核心变异选择方法会评估它们生成的所有策略,并删除表现不佳的策略。
因此,将策略梯度和变化选择方法结合起来的第一个很好的理由是,后者可以删除因梯度步骤而恶化的策略。

1.1 Deep RL actor injection

在这里插入图片描述
图 2:ERL、ESAC、FIDI-RL 和 CERL (a) 和 PDERL 架构 (b) 的模板架构。
在 ERL 中,DDPG 学习的Actor定期注入到种群中并提交给进化选择

如果 DDPG 比 GA 表现更好,这将加速进化过程。否则 DDPG的智能体 将被忽略。在 ESAC 中,DDPG被 SAC 替换,而在 FIDRL 中,GA 被 ARS (Mania et al., 2018) 替换。在 CEL 中,DDPG 代理被一组共享相同重放缓冲区的 TD3 的actor替换,但每个actor使用不同的折扣因子。同样,那些比其他人群表现更好的参与者被保留和增强进化过程,而其余的则被进化选择丢弃。在PDERL 中,ERL 的遗传算子被使用局部重放缓冲区的运算符替换,以便更好地利用每个代理的基于步骤的经验。
ERL 算法很快之后是 CERL,它将 ERL 从 RL 扩展到分布式 RL,其中多个代理并行学习,所有这些代理都被注入到进化种群中。
ERL和 CERL主要缺点是它们依赖于遗传算法,该算法将标准的基于 n 点的交叉和高斯权重变异算子应用于神经网络架构的直接编码作为参数的简单向量。这种方法需要繁琐的超参数调整,并且通常比进化策略表现更差。特别是,基于直接编码的ERL和CERL中使用的遗传算子已被证明会导致对有效个体行为的灾难性遗忘的风险。
PDERL 算法,建立在解决这两个缺点的基础上,还提出了两个替代进化算子,所有agent都有自己的重放缓冲区,交叉选择两个父节点中的最佳经验来填充后代的缓冲区,然后应用行为克隆来获得与缓冲区中数据行为的新策略。
ERL另一个解决方案是ESAC算法 ,它使用 算法而不是 DDPG 和SAC,修改后的进化策略而不是遗传算法,但架构遵循相同的模板。类似地,FIDI-RL算法 将 DDPG 与增强随机搜索 相结合,这是一种有限差异算法,可以看作是进化策略的简化版本。FIDI-RL 使用 ERL 架构。该方法仅比单独使用ARS和DDPG 表现更好,但与本次调查中列出的任何其他组合相比,ESAC 和 FIDI-RL都不是最好的算法。最后,X-DDPG算法是 ERL 的另一个版本,具有多个异步的DDPG,其中来自进化代理和DDPG代理的缓冲区被分离,并且每个DDPG 代理在每个时间都被注入到进化种群中
BNET 算法 在本次调查中是边缘的,因为它并不真正使用 RL 算法,而是使用基于行为的神经进化 (BBNE) 机制,该机制仅受到 RL 算法的启发,而不依赖于梯度下降。BNET 结合了基于标准适应度的稳健选择方法、基于代理行为优势的第二个机制和基于策略回报的代理估计的第三种机制。BBNE 机制让人想起 Advantage Weighted Regression (AWR) 算法,但它使用进化方法来优化这种基于行为的标准而不是标准的基于梯度的方法。这种选择的原因是进化部分依赖于笛卡尔遗传编程,它进化了神经网络的结构,但梯度下降算子不能应用于结构在情节演变的网络。
CHDRL体系结构在几个方面扩展了ERL方法,以提高组合的样本效率。首先,它使用了两个级别的RL算法,一个是策略上的,一个是非策略的,以受益于非策略学习的较高样本效率。其次,它不是周期性地在进化种群中注入某个agent,而是只有当被注入的agent的表现明显好于进化agent时才这样做。第三,它将标准重放缓冲区与填充了过滤数据的较小本地缓冲区相结合,以确保使用最有益的样本。下图中描述的CSPC算法是使用SAC和PPO算法的CHDRL的一个实例。
在这里插入图片描述
图:CSPC(A)和CEM-rl(B)架构。在CSPC中,结合了On-Policy和Off-Policy算法、两个重放缓冲区和基于性能的参与者注入规则,从而提高了类ERL方法的采样效率。在CEM-r1中,来自TD3算法的批评者的梯度步骤被应用于一半的进化代理群体。如果应用该梯度是有利的,则保留相应的个体,否则丢弃它们。

如果RL agent被注入到进化种群中,并且如果进化使用直接编码,则RL agent和进化个体需要共享共同的结构。消除这一限制可能是有用的,因为进化方法通常应用于比RL方法更小的策略。为此,可以调用任何努力从大型策略获取具有类似功能的较小策略的策略升华机制。

1.2 RL gradient addition

另一种方法不是向群体中注入RL参与者,而是对该群体的一些成员应用渐变步长。这是CEM-rl算法的方法,见上图b。紧随其后的是CEM-Acer,它简单地用Acer取代了TD3算法。

1.3 Evolution from the RL actor

在这里插入图片描述

在G2n(A)和Sue-RL(B)架构中,进化种群是从RL actor 本地构建的。在G2n中,进化部分探索了actor网络的中央层的结构。在Sue-RL中,应用了更多的标准突变,未突变的actor被插入到进化种群中,并且actor被软更新以获得最好的后代。

在到目前为止列出的算法中,主循环是渐进式的,RL循环以较慢的速度使用来加速它。相比之下,在G2n和Supe-rl算法中,主环是RL环,进化被用来支持探索。

G2n中,进化被用来根据二进制基因组激活或去激活actor体系结构中中央层的神经元,通过使用进化算子对基因组进行采样,评估各种actor体系结构,并在其基因组被用于生成新的体系结构群之前,从批评梯度步骤中获得最好的好处。这种机制在actor结构和生成的轨迹中都提供了相当多的探索,并优于基因组的随机采样。研究了G2n方法的两个实例:基于G2c的G2Ac和基于PPO的G2PPO,它们的性能都优于它们使用的RL算法。

SUPE-RR算法类似于G2N,不同之处在于,通过对actor的所有参数执行标准的高斯噪声突变来替换演变中心层的结构。此外,如果其中一个子代比当前的RL代理更好,则通过软更新机制针对该更好的子代修改后者。最后,未突变的actor也被插入到进化种群中,而在G2N中则不是这样。

1.4 Using a surrogate fitness

在这里插入图片描述
Sc-erl(A)和Pgps(B)结构是通过使用critic网络作为评估进化个体的代理来提高样本效率的两种方法。
在SC-ERL中,agent控制部分是通用的,并且可以应用于诸如ERL、CEL或CEM-RL的几种体系结构。它将aritic视为适应度的代理模型,使得在不产生额外样本的情况下估计新个体的适应度成为可能。
PGPS使用相同的想法,但将其与其他几种机制相结合,例如执行actor向最佳进化代理的软更新,或使用agent适应度填充一半的种群,另一半来自CEM生成的agent。

到目前为止,我们已经列出的所有结合进化和RL的方法的一个缺点是,它们需要评估agent来执行进化选择步骤,这可能会损害样本效率。在SC-ERL和PGPS架构中,通过使用critic网络作为评估agent的agent来解决这一问题。重要的是,对个体的评估最初必须依赖于真正的适合度,但随着其准确性的提高,可以越来越频繁地求助于批critic。如图a所示,SC-ERL体系结构是通用的,可以应用于我们到目前为止列出的任何组合之上。在实践中,它被应用于ERL、PDRL和CEM-RL,导致前两种情况下的SERL和SPDERL算法。
图b所示的PGPS算法建立在相同的思想基础上,但将其用于进化和RL机制的特定组合的背景下,该机制借用了前面描述的几种方法的思想。更详细地说,一半的种群充满了从agent适应度评估的agent,而另一半是用CEM生成的。此外,当前的TD3 actor被注入到群体中,并受益于对群体中最好的代理的软更新。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

特特丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值