Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读

Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读

前言

这篇文章看的人不太多的样子,19年的ICML,到现在才有3次引用,还都不是主流的强化算法类的内容。GitHub开源的代码也只有8个star。可见是相当的凉了。

全网就白辰甲大佬19年的一篇博客:白辰甲-Trajectory-Based Off-Policy Deep RL
,也找不到openreview。

但由于我已经打印了它的PDF,论文讲的内容也比较有意思:策略梯度能不能用过去比较老旧的经验?

但是这篇文章的实验就非常的简陋,只是在最简单的cartpole,mountain car上和ppo,trpo做了对比。我是很担心这算法在其他复杂任务中的性能的,两年来没什么人用,应该侧面说明了这个问题。

核心思路:

既然算是做一个二次阅读,还是得简单记录一下这个算法的核心思路。

下面直接复制白大佬的帖子:

本文提出了一种 off-policy 策略梯度法,其主要目的是提高样本利用效率。目前常用的策略梯度法 A3C/TRPO/PPO 都是 on-policy 方法,经验在利用之后就丢弃,因此样本效率较低。

DDPG/TD3 是 off-policy 的策略梯度法,基于Q-learning。Sutton 最早也提出过 off-policy 的策略梯度法,由于需要利用之前的样本,因此需要使用 Importance Sampling (IS). IS 可能过大或者过小,在训练过程中带来不稳定性。

本文提出的方法基于 Policy Gradient,也需要利用 IS weight 来将 behavior policy 产生样本的分布转换到当前策略中。但本文提出了一系列方法来避免 IS weight 对学习产生不利的影响。

  1. 基本理论
    策略梯度法的优化目标是最大化目标函数J(\theta),该值通过对轨迹发生的概率和该轨迹的奖励积分求得:
    在这里插入图片描述
    省略了一些原帖的一些推导,在使用 Monte Carlo 估计情况下,可以将式(3)写成下式:
    在这里插入图片描述
    本文研究的是 off-policy 策略梯度,表明用于训练的轨迹产生至之前的某个策略参数 θ ′ \theta' θ而非当前参数 θ \theta θ 。因此,将式(3)等价的可以写成:

在这里插入图片描述
这里将需要积分的对象换掉 ,对上式进行 Monte Carlo 估计可以写为:

在这里插入图片描述

总之,就通过重要性采样,将过去旧的经验利用上了,说的是可以提高采样效率。

后面也对确定性策略梯度也做了一个针对性推导,反正我就不细说了,要是有复现过这篇文章的同学可以聊聊~

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hehedadaq

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值