强化学习论文阅读-Policy Gradients with Action-Dependent Baselines 专题

修改自组会报告ppt。


在这里插入图片描述
这种方法的基本思想就是,使用Action-Dependent Baseline来减小PG方法的方差。

Baseline 是 policy gradient 类方法的一个重要的减小方差的手段。并且,baseline的引入并不会导致bias。
在REINFORCE with baseline算法中,就引入了基准值b作为baseline。
在这里插入图片描述
这一系列研究方向主要都是针对找到b的估计。
最优的baseline理论上是存在的。出于practical的考虑,一般使用当前状态动作对的价值作baseline。或者选择一个方便计算的action-dependent baseline。

最优baseline
论文列表:
[22] Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic, Gu et al, 2016. Algorithm: Q-Prop.
[23] Action-dependent Control Variates for Policy Optimization via Stein’s Identity, Liu et al, 2017. Algorithm: Stein Control Variates.
[24] The Mirage of Action-Dependent Baselines in Reinforcement Learning, Tucker et al, 2018. Contribution: interestingly, critiques and reevaluates claims from earlier papers (including Q-Prop and stein control variates) and finds important methodological errors in them.

参考:
Policy Gradient Methods for Reinforcement Learning with Function Approximation and Action-Dependent Baselines,arXiv:1706.06643v1
VARIANCE REDUCTION FOR POLICY GRADIENT WITH ACTION-DEPENDENT FACTORIZED BASELINES,arXiv:1803.07246

Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic, Gu et al, 2016. Algorithm: Q-Prop.

在这里插入图片描述

这篇论文主要思想就是用用off-policy的方式估计一个baseline。用到技巧就是在AC模型中,将Critic的一阶泰勒展开作为控制变量在这里插入图片描述
对比REINFORCE(方差大、无偏)和(方差大、无偏),可以发现两者的梯度公式可以结合。

在这里插入图片描述
Q-prop算法就是这样的:
在这里插入图片描述
Q-Prop同时有在线更新和离线更新,在线更新的是策略,离线更新的是Q函数估计,算是很巧妙地将二者融合在一起。

Action-dependent Control Variates for Policy Optimization via Stein’s Identity, Liu et al, 2017. Algorithm: Stein Control Variates.

在这里插入图片描述
这篇论文的主要思想是使估计的baseline和原策略分布近似相等,使用了数学上的Stein’s identity 。Stein’s identity 是统计学里面判断两个分布是否相等的方法。给定策略, Stein’s identity写作:
在这里插入图片描述
这篇论文最初的想法就是对于无偏估计在这里插入图片描述
方差就能减小为
在这里插入图片描述
如果g,f同分布,那么方差将大大变小。因此优化目标就是求出一个Φ(s,a),使用Stein’s identity使它尽量和g同分布。
在这里插入图片描述
这篇论文代表了一类基于Action-Dependent Baselines的探索。

The Mirage of Action-Dependent Baselines in Reinforcement Learning, Tucker et al, 2018. Contribution: interestingly, critiques and reevaluates claims from earlier papers (including Q-Prop and stein control variates) and finds important methodological errors in them.

在这里插入图片描述
本文主要批评和重新评估早期论文,指出方法上的错误。提出了两个结论:

  • 代码训练时 “subtle implementation decisions”使得算法真正无偏
  • 提出了一个地平线感知值函数参数化
    在这里插入图片描述
    在上面三张实验图中可以看出,如果采用公正的方式,不使用映入bias的方式训练,并没有特别显著的效果提升(蓝色和红色线)。但是根据论文后面的开源代码看来,这些都是因为引入了一定的bias才得到的结果(绿线)。其中偏差就是在优势函数正则化的时候引入的。
    在这里插入图片描述
    在前面研究的基础上,论文提出了地平线感知值函数。前面一部分预测未来几步收益之和,再加上当前状态估计的价值函数。这样子可以有效避免,一幕游戏最后几步的时候值函数会特别低的问题。
    通过实验发现,引入这种模式的方法比TRPO稍好一些。其它方法均不能优于TRPO。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

邵政道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值