Evolution-Guided Policy Gradients in Reinforcement Learning

Evolution-Guided Policy Gradients in Reinforcement Learning

文章来自Oregon State University,提出了一种结合 Evolution Algorithm(EA)的RL的算法 — Evolutionary Reinforcement Learning (ERL),该算法继承了前两者的优点。

RL的主要缺陷:

  • temporal credit assignment problem;
  • lack of effective exploration;
  • brittle convergence properties.

EA的主要缺陷:

  • high sample complexity;
  • struggle to solve problems with a large number of parameters.

然而,RL的这三个缺陷在EA中是不存在的,反之,EA的缺陷在RL看来还有提升的空间。

Contribution:
1)提出了一种EA与RL(主要是off-policy算法)的结合算法 ---- ERL.

Code:

available at https://github.com/ShawK91/erl_paper_nips18

本文的做法是(如下图所示):用进化算法EA的一群执行者 a c t o r p o p actor_{pop} actorpop 去搜集agent与环境的互动轨迹(这期间 a c t o r p o p actor_{pop} actorpop 的参数是靠EA自身算法迭代进化的),然后RL使用这些轨迹进行梯度计算并更新策略。每隔一定次数的迭代,RL向EA传递梯度信息,即将最新的 a c t o r r l actor_{rl} actorrl 参数复制给EA的 a c t o r p o p actor_{pop} actorpop。其实主要是两股信息流的传递,EA到RL传递互动轨迹,RL到EA传递梯度信息( 以 a c t o r r l actor_{rl} actorrl 参数的形式 )。

以下是算法伪代码:这里本人有个疑问,即 Algorithm 1, line12什么时候会成立?符号 ∣ S ∣ |S| S应该表示的是 S S S集合的元素个数,而从line11来看,好像表达的是 ∣ S ∣ = ( k − e ) |S|=(k-e) S=(ke),那么什么时候会出现 ∣ S ∣ < ( k − e ) |S|<(k-e) S<(ke)

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值