论文笔记 General Advantage Estimation（GAE）

最新推荐文章于 2025-03-08 23:57:59 发布

Ray_rainbow

最新推荐文章于 2025-03-08 23:57:59 发布

阅读量1w

点赞数 14

分类专栏：强化学习

本文链接：https://blog.csdn.net/weixin_39891381/article/details/105153867

版权

论文笔记GAE

GAE 全称General Advantage Estimation，是一种平衡优势函数估计中的偏差和方差的方法。论文地址https://arxiv.org/abs/1506.02438

1 引言

策略梯度法存在的两个方面问题：
样本利用率，由于样本利用率低需要大量采样；
算法稳定性，需要让算法在变化的数据分布中稳定提升；
值函数也是为了解决信用分配问题，能够在延迟奖励到来之前判断动作的好坏。
策略梯度法与AC法的区别：
使用全部奖励来估计策略梯度，尽管无偏但是方差大；Actor-Critic方法使用值函数来估计奖励，能够降低偏差但是方差较大。
方差、偏差的影响：
高方差需要更多的样本来训练，偏差会导致不收敛或收敛结果较差。
本文两个贡献：

提出GAE来平衡偏差和方差；
提出值函数置信域方法；

2 GAE

策略梯度估计方法有如下多种，使用优势函数的方法方差最小。
在这里插入图片描述
gamma-just是指期望为如下表达式：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ray_rainbow

关注关注

14
点赞
踩
33

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

丨汀、的博客

07-14

4251

如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

PPO & GRPO 可视化介绍

最新发布

u012374012的专栏

04-08

799

本文来自Google DeepMind研究员Jimmy关于PPO & GRPO 可视化介绍。

1 条评论您还未登录，请先登录后发表或查看评论

深入解析强化学习中的 Generalized Advantage Estimation (GAE)

阿正的梦工坊

12-12

3042

This blog post illustrates the importance of GAE in reinforcement learning, along with its implementation and impact on training stability. By leveraging GAE, algorithms like PPO achieve superior performance in complex environments.

generalized_advantage_estimation:多伦多大学STA4273 2021冬季课程介绍

03-19

generalized_advantage_estimation 多伦多大学STA4273 2021冬季课程介绍我们的Jupyter Notebook的Colab版本： ://colab.research.google.com/drive/11LTZ7tVR_IW4siDoK6qxWGBwn3Hp0zl9 usp sharing 链接到课程页面： : 链接到演示文稿的课程页面： : 参考： [1] Schulman，J.，Moritz，P.，Levine，S.，Jordan，M.和Abbeel，P.（2015）。使用广义优势估计的高维连续控制。 arXiv预印本arXiv：1506.02438。 [2]

【论文阅读】GraCEImpute: A novel graph clustering autoencoder approach for imputation of scRNA-seq data

dundunmm的博客

03-08

1140

单细胞RNA测序（scRNA-seq）技术为解析不同生物系统中的细胞异质性提供了独特视角。然而，由于技术限制，scRNA-seq数据存在较高的掉落率（dropout rate），导致大量数据丢失，从而对后续分析带来计算挑战。本研究提出了一种基于图聚类自动编码器（GCAE）的新型缺失值填补方法——GraCEImpute，以应对scRNA-seq数据中的缺失数据问题。综合评估结果表明，GraCEImpute模型在准确填补scRNA-seq数据中的掉落零值方面优于现有方法。

强化学习的学习之路（四十八）2021-02-17 GAE（Generalized Advantage Estimation）

热爱可抵漫长岁月

04-03

4395

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，

GAE(Generalized Advantage Estimation) PPO

bbbeoy的专栏

06-28

4414

https://blog.csdn.net/zhkmxx930xperia/article/details/88257891

强化学习 GAE算法：HIGH-DIMENSIONAL CONTINUOUS CONTROL USINGGENERALIZED ADVANTAGE ESTIMATION》论文笔记

beingstrong的博客

07-21

509

论文《HIGH-DIMENSIONAL CONTINUOUS CONTROL USINGGENERALIZED ADVANTAGE ESTIMATION》是策略梯度算法中常用的优势估计算法GAE对应的论文

优势函数(Advantage Function)及其估计值GAE

qq_43703185的博客

02-20

3662

原文链接：https://blog.csdn.net/huibiannihao/article/details/106486022 目录什么是优势函数归一化、激活函数等学习问题为什么要使用优势函数常见的优势函数什么是优势函数优势函数表达在状态s下，某动作a相对于平均而言的优势。从数量关系来看，就是随机变量相对均值的偏差。使用优势函数是深度强化学习极其重要的一种策略，尤其对于

MAPPO：PPO在合作多智能体博弈中的惊人效果

wq6qeg88的博客

03-30

1839

Abstract 摘要 Proximal Policy Optimization (PPO) is a ubiquitous on-policy reinforcement learning algorithm but is significantly less utilized than off-policy learning algorithms in multi-agent settings. This is often due to the belief that PPO is sig

◇【论文_20150608_20181020v6】广义优势估计器 (generalized advantage estimator, GAE)

weixin_46034116的博客

10-09

1175

https://arxiv.org/abs/1506.02438 ICLR 2016 加州伯克利电子工程与计算机科学系 High-Dimensional Continuous Control Using Generalized Advantage Estimation 文章目录摘要1 引言2 预备知识3 优势函数估计4 解释为奖励设计reward shaping5 价值函数估计6 实验6.1 策略优化算法6.2 实验设置6.2.1 网络架构6.2.2 任务细节6.3 实验结果6.3.1 Cart-p

GAE 算法

chnyist 的博客

08-06

1893

【论文阅读-Autoencoder】Generalized Autoencoder: A Neural Network Framework for Dimensionality Reduction

adaliu1998的博客

09-12

1887

1. 阅读前的预备知识：Autoencoder 无监督，主要用于数据降维或者特征抽取 pretrain：在深度学习中，autoencoder可用于在训练阶段开始前，确定权重矩阵的初始值目标是让输入等于输出，为的是高维-->低维encode后损失的信息不多对于多层神经网络，可以一层一层训练，固定之前的层之后来运行下一层的pretrain。 ...

论文阅读---《Graph Regularized Autoencoder and itsApplication in Unsupervised Anomaly Detection》

qq_25368751的博客

08-08

427

降维对于许多无监督学习任务，包括异常检测和聚类，是一个至关重要的第一步。自编码器是一种常用的机制，用于实现降维。为了使高维数据嵌入到非线性低维流形的降维变得有效，人们认识到应该使用某种测量测地线距离的方法来区分数据样本。受到ISOMAP等测地线距离近似算法的成功启发，我们提出使用最小生成树（MST）——一种基于图的算法，来近似局部邻域结构，并生成数据点之间保持结构的距离。

7. Variational Graph Auto-Encoders论文阅读笔记

薰珞婷紫小亭子的博客

04-08

1282

《Variational Graph Auto-Encoders》这篇论文是截止我博士一年级生涯为止，看到的最短的一篇论文，总页数3页，正文2页。截至今日，“他引”次数高达863次。废话不多数，一起来看下这篇论文吧论文地址：https://arxiv.org/pdf/1611.07308.pdf%5D 本文模型简称为：VGAE 在正式读这篇论文之前，默认您已经有了一定的VAE(Variational Auto-Encoder)、GCN(Graph Convolutional Network)等知识的积累

算法学习（二十）——GAE

星之所望的博客

09-13

6556

全称是generalized advantage estimator，几乎所有最先进的policy gradient算法实现里面都使用了该技术，适合高维状态，一般都是PPO+GAE。该算法主要改进在于对A的估计。优势函数可以写成如下：一步的优势函数进一步展开为：其中V 的值都是估计的，因此A的估计存在偏差。优势函数的2步估计及无穷步估计分别为：可以看到，随着步数的增加，V的比重逐渐减少，所以不准确的影响也在逐渐减少。 GAE的方法是改进对优势函数的估计，将偏差控制...

标准版的策略梯度算法(Vanilla Policy Gradient)

zhf的博客

08-23

5082

前言来源于：标准版的策略梯度算法(Vanilla Policy Gradient) 1 背景知识策略梯度(Policy Gradient, PG)方法的核心思想在于是能获得更好的回报的动作的采样概率不断提高，使获得更少回报的动作的采样概率不断降低，从而达到一个最优的策略。2 知识速览标准的策略梯度算法(Vanilla Policy Gradient, VPG)属于在策略(on-policy)算法VPG算法可以被用到离散和连续动作空间中Spinning Up中的实现支持使用MPI的并行执行3 关键表达式

多智能体强化学习理论与算法总结

weixin_39735688的博客

06-29

5950

ppo gae 优势

10-26

PPO（Proximal Policy Optimization）是一种常用的深度强化学习算法，而GAE（Generalized Advantage Estimation）是PPO算法中用于计算优势函数的一种方法。在PPO中，优势函数是指当前状态相对于平均状态的价值，用于衡量当前策略相对于旧策略的改进程度。而GAE是一种multi-step TD的Advantage的指数加权移动平均，可以让优势估计更加平滑和稳定。在实现PPO时，一般会使用GAE来计算优势函数，而不是使用原始的Advantage function。同时，PPO-Clip也是一种常用的PPO算法，它使用了一种暴力的方式来限制策略更新的幅度，相比于GAE方法更加有效。