算法学习（二十）——GAE

最新推荐文章于 2024-06-29 00:44:12 发布

星之所望

最新推荐文章于 2024-06-29 00:44:12 发布

阅读量5.1k

点赞数 7

分类专栏：强化学习文章标签：算法数据结构机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42769131/article/details/120275831

版权

强化学习专栏收录该内容

42 篇文章 21 订阅

订阅专栏

本文深入解析了Generalized Advantage Estimator (GAE)算法，它是高级策略梯度算法如PPO的关键组成部分。GAE通过改进优势函数估计，平衡偏差和方差，帮助我们在高维状态下进行更精确的参数调整。讲解了从基本优势函数到多步估计的过程，并介绍了选择λ参数的重要性。

摘要由CSDN通过智能技术生成

全称是generalized advantage estimator，几乎所有最先进的policy gradient算法实现里面都使用了该技术，适合高维状态，一般都是PPO+GAE。

该算法主要改进在于对A的估计。

优势函数可以写成如下：

一步的优势函数进一步展开为：

其中V 的值都是估计的，因此A的估计存在偏差。

优势函数的2步估计及无穷步估计分别为：

可以看到，随着步数的增加，V的比重逐渐减少，所以不准确的影响也在逐渐减少。

GAE的方法是改进对优势函数的估计，将偏差控制到一定的范围内。其方法是对优势函数进行多步估计，并将这些多步估计利用衰减因子进行组合。具体是这样做的：

当λ=0时，GAE的形式就是TD误差的形式，有偏差，但方差小。 λ=1时就是蒙特卡洛的形式，无偏差，但是方差大。

所以我们就可以选个合适的λ值来对偏差和方差做一个权衡了。进而去估计最终的策略梯度。

其实就是PG类算法增加了一个超参数，可以更精确手动调参了。

参考：

Actor-Critic算法小结 - 知乎闲言碎语：上周末圆满完成第二次线下培训课程，为了优化课程，着实花费了不少心血，包括自己动手开发了配套的代码程序，重新做了新的ppt……, 虽然很累，但看到参加的同学反映收获很大，这些工作也算是值了。现在…https://zhuanlan.zhihu.com/p/29486661 GAE——泛化优势估计 - 知乎GAE主要是讲对优势函数At如何进行估计，网上讲这篇的很少，看着是相当地累了。。 1 Introduction在RL中，最大化policy的reward期望，一个关键问题是动作与最终的奖励往往具有较大的时间延迟，在RL中这个问题被…https://zhuanlan.zhihu.com/p/356447099

关注

7
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。