论文笔记 General Advantage Estimation(GAE)

GAE 全称General Advantage Estimation,是一种平衡优势函数估计中的偏差和方差的方法。论文地址https://arxiv.org/abs/1506.02438

1 引言

  • 策略梯度法存在的两个方面问题
    样本利用率,由于样本利用率低需要大量采样;
    算法稳定性,需要让算法在变化的数据分布中稳定提升;

  • 值函数也是为了解决信用分配问题,能够在延迟奖励到来之前判断动作的好坏。

  • 策略梯度法与AC法的区别:
    使用全部奖励来估计策略梯度,尽管无偏但是方差大;Actor-Critic方法使用值函数来估计奖励,能够降低偏差但是方差较大。

  • 方差、偏差的影响:
    高方差需要更多的样本来训练,偏差会导致不收敛或收敛结果较差。

  • 本文两个贡献:

  1. 提出GAE来平衡偏差和方差;
  2. 提出值函数置信域方法;

2 GAE

策略梯度估计方法有如下多种,使用优势函数的方法方差最小。
在这里插入图片描述
gamma-just是指期望为如下表达式:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值