论文笔记GAE
GAE 全称General Advantage Estimation,是一种平衡优势函数估计中的偏差和方差的方法。论文地址https://arxiv.org/abs/1506.02438
1 引言
-
策略梯度法存在的两个方面问题:
样本利用率,由于样本利用率低需要大量采样;
算法稳定性,需要让算法在变化的数据分布中稳定提升; -
值函数也是为了解决信用分配问题,能够在延迟奖励到来之前判断动作的好坏。
-
策略梯度法与AC法的区别:
使用全部奖励来估计策略梯度,尽管无偏但是方差大;Actor-Critic方法使用值函数来估计奖励,能够降低偏差但是方差较大。 -
方差、偏差的影响:
高方差需要更多的样本来训练,偏差会导致不收敛或收敛结果较差。 -
本文两个贡献:
- 提出GAE来平衡偏差和方差;
- 提出值函数置信域方法;
2 GAE
策略梯度估计方法有如下多种,使用优势函数的方法方差最小。
gamma-just是指期望为如下表达式: