论文笔记 General Advantage Estimation(GAE)

GAE 全称General Advantage Estimation,是一种平衡优势函数估计中的偏差和方差的方法。论文地址https://arxiv.org/abs/1506.02438

1 引言

  • 策略梯度法存在的两个方面问题
    样本利用率,由于样本利用率低需要大量采样;
    算法稳定性,需要让算法在变化的数据分布中稳定提升;

  • 值函数也是为了解决信用分配问题,能够在延迟奖励到来之前判断动作的好坏。

  • 策略梯度法与AC法的区别:
    使用全部奖励来估计策略梯度,尽管无偏但是方差大;Actor-Critic方法使用值函数来估计奖励,能够降低偏差但是方差较大。

  • 方差、偏差的影响:
    高方差需要更多的样本来训练,偏差会导致不收敛或收敛结果较差。

  • 本文两个贡献:

  1. 提出GAE来平衡偏差和方差;
  2. 提出值函数置信域方法;

2 GAE

策略梯度估计方法有如下多种,使用优势函数的方法方差最小。
在这里插入图片描述
gamma-just是指期望为如下表达式:
在这里插入图片描述
定义状态值函数V的TD error:
在这里插入图片描述
定义k步估计的优势函数:
在这里插入图片描述
当k越大,方差越大,偏差越小。
GAE定义为lambda指数下降权重调整的Ak求和
在这里插入图片描述
当lambda=0时,相当于TD-error;当lambda=1时,相当于A∞。
在这里插入图片描述
GAE(γ, 1) 是 γ-just 不管 V是否准确 , 但是因为求和项较多具有高方差。
GAE(γ, 0) 是 γ-just 只在 V = V π,γ (最有值函数)时,否则会引入偏差,但是方差更小。
当 0 < λ < 1 就是平衡方差与偏差的过程。

GAE策略梯度更新公式:
在这里插入图片描述

3 置信域值函数更新

置信域方法的好处是防止过拟合最近一批数据。
使用共轭梯度法求解
在这里插入图片描述
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200328002213720.png

4 实验

算法伪代码:

如果先更新值函数会引入新的偏差,文章的解释是:如果先满足了贝尔曼方程,TD-error为0,策略梯度也为0。
在这里插入图片描述
部分实验结果如下,能看出gamma一般取0.99、0.999,lambda一般取0.95-1
在这里插入图片描述

问题
为什么使用状态值函数而不是动作值函数?
答:状态值函数输入维度更少,训练更方便;本文的方法能够平衡偏差和方差,如果使用动作值函数Q会让我们得到高偏差。

  • 11
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值