ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈?

天津大学强化学习实验室提出了ERL-Re²,一种融合进化算法与强化学习的新框架,旨在解决强化学习的探索性差和进化算法的样本效率低的问题。ERL-Re²采用双尺度表征策略,共享状态表征和独立的线性策略表征,提高样本效率并实现知识共享。通过优化共享状态表征和在线性空间中的行为级交叉变异,ERL-Re²在MuJoCo任务上实现了性能提升,成为ERL领域的最新SOTA。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

54661612c0c1de8613a066027a822f2f.gif

©PaperWeekly 原创 · 作者 | 李鹏翼

单位 | 天津大学

研究方向 | 演化强化学习

d616990ad62fcee3f7e3c83f2484cf54.png

论文题目:

ERL-Re: Efficient Evolutionary Reinforcement Learning with Shared State Representation and Individual Policy Representation

论文链接:

https://arxiv.org/abs/2210.17375

代码链接:

https://github.com/yeshenpy/ERL-Re2

本次介绍的是由天津大学强化学习实验室(http://icdai.org/)提出新的进化强化学习范式 ERL-Re。该范式充分融合了进化算法与强化学习用于策略优化,并实现了显著的性能增益与效果。

进化算法与与强化学习是两类不同的优化方式,擅长解决不同的优化问题,并且都拥有很大,很活跃的社区,本次介绍的 ICLR 2023 的工作就是为了将两个社区连接起来,充分利用两种不同优化算法各自的优势来实现策略搜索与性能提升 。目前代码已经开源。

5df62049c692e5abce98dbf6510f4312.png

Background

强化学习 Reinforcement Learning(RL)可以通过环境试错和梯度更新来高效地学习。然而,众所周知,RL 鲁棒性差,探索性差,并且在梯度信号有噪声和信息量较少(sparse)的情况下,难以高效训练。进化算法 Evolutionary Algorithms(EA)是一类黑箱优化方法,主要是维护一个个体的种群,而不是像 RL 只维护一个个体,通过随机扰动的方式来提升个体获得可行解。

与 RL 不同的是,传统 EA 是无梯度优化方法,并具有几个优点:1)强大的探索能力;2)鲁棒性和稳定的收敛;3)采用累计奖励评价个体,不关心单步奖励,因此对奖励信号不敏感。

尽管有这些优点,EA 的一个主要瓶颈是群体的迭代评估而导致的低样本效率。具体来说,EA 需要种群中的每个个体与环境真实交互来获得适应度(性能表现࿰

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值