算法学习(二十)——GAE

本文深入解析了Generalized Advantage Estimator (GAE)算法,它是高级策略梯度算法如PPO的关键组成部分。GAE通过改进优势函数估计,平衡偏差和方差,帮助我们在高维状态下进行更精确的参数调整。讲解了从基本优势函数到多步估计的过程,并介绍了选择λ参数的重要性。
摘要由CSDN通过智能技术生成

全称是generalized advantage estimator,几乎所有最先进的policy gradient算法实现里面都使用了该技术,适合高维状态,一般都是PPO+GAE。

该算法主要改进在于对A的估计。

优势函数可以写成如下:

 一步的优势函数进一步展开为:

 其中V 的值都是估计的,因此A的估计存在偏差。

优势函数的2步估计及无穷步估计分别为:

 可以看到,随着步数的增加,V的比重逐渐减少,所以不准确的影响也在逐渐减少。

GAE的方法是改进对优势函数的估计,将偏差控制到一定的范围内。其方法是对优势函数进行多步估计,并将这些多步估计利用衰减因子进行组合。具体是这样做的:

当λ=0时,GAE的形式就是TD误差的形式,有偏差,但方差小。 λ=1时就是蒙特卡洛的形式,无偏差,但是方差大。

 

所以我们就可以选个合适的λ值来对偏差和方差做一个权衡了。进而去估计最终的策略梯度。

其实就是PG类算法增加了一个超参数,可以更精确手动调参了。

参考:

Actor-Critic算法小结 - 知乎闲言碎语:上周末圆满完成第二次线下培训课程,为了优化课程,着实花费了不少心血,包括自己动手开发了配套的代码程序,重新做了新的ppt……, 虽然很累,但看到参加的同学反映收获很大,这些工作也算是值了。现在…https://zhuanlan.zhihu.com/p/29486661GAE——泛化优势估计 - 知乎GAE主要是讲对优势函数At如何进行估计,网上讲这篇的很少,看着是相当地累了。。 1 Introduction在RL中,最大化policy的reward期望,一个关键问题是 动作与最终的奖励 往往具有较大的 时间延迟,在RL中这个问题被…https://zhuanlan.zhihu.com/p/356447099

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值