©PaperWeekly 原创 · 作者 | 李鹏翼
单位 | 天津大学
研究方向 | 演化强化学习
论文题目:
ERL-Re: Efficient Evolutionary Reinforcement Learning with Shared State Representation and Individual Policy Representation
论文链接:
https://arxiv.org/abs/2210.17375
代码链接:
https://github.com/yeshenpy/ERL-Re2
本次介绍的是由天津大学强化学习实验室(http://icdai.org/)提出新的进化强化学习范式 ERL-Re。该范式充分融合了进化算法与强化学习用于策略优化,并实现了显著的性能增益与效果。
进化算法与与强化学习是两类不同的优化方式,擅长解决不同的优化问题,并且都拥有很大,很活跃的社区,本次介绍的 ICLR 2023 的工作就是为了将两个社区连接起来,充分利用两种不同优化算法各自的优势来实现策略搜索与性能提升 。目前代码已经开源。
Background
强化学习 Reinforcement Learning(RL)可以通过环境试错和梯度更新来高效地学习。然而,众所周知,RL 鲁棒性差,探索性差,并且在梯度信号有噪声和信息量较少(sparse)的情况下,难以高效训练。进化算法 Evolutionary Algorithms(EA)是一类黑箱优化方法,主要是维护一个个体的种群,而不是像 RL 只维护一个个体,通过随机扰动的方式来提升个体获得可行解。
与 RL 不同的是,传统 EA 是无梯度优化方法,并具有几个优点:1)强大的探索能力;2)鲁棒性和稳定的收敛;3)采用累计奖励评价个体,不关心单步奖励,因此对奖励信号不敏感。
尽管有这些优点,EA 的一个主要瓶颈是群体的迭代评估而导致的低样本效率。具体来说,EA 需要种群中的每个个体与环境真实交互来获得适应度(性能表现