强化学习论文阅读-Policy Gradients with Action-Dependent Baselines 专题

最新推荐文章于 2022-10-17 19:15:32 发布

邵政道

最新推荐文章于 2022-10-17 19:15:32 发布

阅读量758

点赞数

分类专栏：知识笔记文章标签：强化学习

本文链接：https://blog.csdn.net/Xixo0628/article/details/121192421

版权

知识笔记专栏收录该内容

32 篇文章 7 订阅

订阅专栏

修改自组会报告ppt。

文章目录

这种方法的基本思想就是，使用Action-Dependent Baseline来减小PG方法的方差。

Baseline 是 policy gradient 类方法的一个重要的减小方差的手段。并且，baseline的引入并不会导致bias。
在REINFORCE with baseline算法中，就引入了基准值b作为baseline。
在这里插入图片描述
这一系列研究方向主要都是针对找到b的估计。
最优的baseline理论上是存在的。出于practical的考虑，一般使用当前状态动作对的价值作baseline。或者选择一个方便计算的action-dependent baseline。

最优baseline
论文列表：
[22] Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic, Gu et al, 2016. Algorithm: Q-Prop.
[23] Action-dependent Control Variates for Policy Optimization via Stein’s Identity, Liu et al, 2017. Algorithm: Stein Control Variates.
[24] The Mirage of Action-Dependent Baselines in Reinforcement Learning, Tucker et al, 2018. Contribution: interestingly, critiques and reevaluates claims from earlier papers (including Q-Prop and stein control variates) and finds important methodological errors in them.

参考：
Policy Gradient Methods for Reinforcement Learning with Function Approximation and Action-Dependent Baselines，arXiv:1706.06643v1
VARIANCE REDUCTION FOR POLICY GRADIENT WITH ACTION-DEPENDENT FACTORIZED BASELINES，arXiv:1803.07246

Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic, Gu et al, 2016. Algorithm: Q-Prop.

在这里插入图片描述

这篇论文主要思想就是用用off-policy的方式估计一个baseline。用到技巧就是在AC模型中，将Critic的一阶泰勒展开作为控制变量在这里插入图片描述。
对比REINFORCE（方差大、无偏）和（方差大、无偏），可以发现两者的梯度公式可以结合。

在这里插入图片描述
Ｑ-prop算法就是这样的：

Q-Prop同时有在线更新和离线更新，在线更新的是策略，离线更新的是Q函数估计，算是很巧妙地将二者融合在一起。

Action-dependent Control Variates for Policy Optimization via Stein’s Identity, Liu et al, 2017. Algorithm: Stein Control Variates.

在这里插入图片描述
这篇论文的主要思想是使估计的baseline和原策略分布近似相等，使用了数学上的Stein’s identity 。Stein’s identity 是统计学里面判断两个分布是否相等的方法。给定策略， Stein’s identity写作：

这篇论文最初的想法就是对于无偏估计在这里插入图片描述，
方差就能减小为

如果g,f同分布，那么方差将大大变小。因此优化目标就是求出一个Φ(s,a)，使用Stein’s identity使它尽量和g同分布。

这篇论文代表了一类基于Action-Dependent Baselines的探索。

The Mirage of Action-Dependent Baselines in Reinforcement Learning, Tucker et al, 2018. Contribution: interestingly, critiques and reevaluates claims from earlier papers (including Q-Prop and stein control variates) and finds important methodological errors in them.

在这里插入图片描述
本文主要批评和重新评估早期论文，指出方法上的错误。提出了两个结论：

代码训练时 “subtle implementation decisions”使得算法真正无偏
提出了一个地平线感知值函数参数化

在上面三张实验图中可以看出，如果采用公正的方式，不使用映入bias的方式训练，并没有特别显著的效果提升（蓝色和红色线）。但是根据论文后面的开源代码看来，这些都是因为引入了一定的bias才得到的结果（绿线）。其中偏差就是在优势函数正则化的时候引入的。

在前面研究的基础上，论文提出了地平线感知值函数。前面一部分预测未来几步收益之和，再加上当前状态估计的价值函数。这样子可以有效避免，一幕游戏最后几步的时候值函数会特别低的问题。
通过实验发现，引入这种模式的方法比TRPO稍好一些。其它方法均不能优于TRPO。

邵政道

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习论文阅读-Policy Gradients with Action-Dependent Baselines 专题

修改自组会报告ppt。这种方法的基本思想就是，使用Action-Dependent Baseline来减小PG方法的方差。Baseline 是 policy gradient 类方法的一个重要的减小方差的手段。并且，baseline的引入并不会导致bias。在REINFORCE with baseline算法中，就引入了基准值b作为baseline。这一系列研究方向主要都是针对找到b的估计。最优的baseline理论上是存在的。出于practical的考虑，一般使用当前状态动作对的价值作bas
复制链接

扫一扫