Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读

最新推荐文章于 2024-04-17 10:23:47 发布

hehedadaq

最新推荐文章于 2024-04-17 10:23:47 发布

阅读量857

点赞数

分类专栏： DRL 论文阅读笔记文章标签：离线强化学习策略梯度重要性采样样本效率深度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hehedadaq/article/details/121325187

版权

DRL 同时被 2 个专栏收录

33 篇文章 18 订阅

订阅专栏

论文阅读笔记

22 篇文章 4 订阅

订阅专栏

Trajectory-Based Off-Policy Deep Reinforcement Learning二次阅读

前言

这篇文章看的人不太多的样子，19年的ICML，到现在才有3次引用，还都不是主流的强化算法类的内容。GitHub开源的代码也只有8个star。可见是相当的凉了。

全网就白辰甲大佬19年的一篇博客：白辰甲-Trajectory-Based Off-Policy Deep RL
，也找不到openreview。

但由于我已经打印了它的PDF，论文讲的内容也比较有意思：策略梯度能不能用过去比较老旧的经验？

但是这篇文章的实验就非常的简陋，只是在最简单的cartpole，mountain car上和ppo，trpo做了对比。我是很担心这算法在其他复杂任务中的性能的，两年来没什么人用，应该侧面说明了这个问题。

核心思路：

既然算是做一个二次阅读，还是得简单记录一下这个算法的核心思路。

下面直接复制白大佬的帖子：

本文提出了一种 off-policy 策略梯度法，其主要目的是提高样本利用效率。目前常用的策略梯度法 A3C/TRPO/PPO 都是 on-policy 方法，经验在利用之后就丢弃，因此样本效率较低。

DDPG/TD3 是 off-policy 的策略梯度法，基于Q-learning。Sutton 最早也提出过 off-policy 的策略梯度法，由于需要利用之前的样本，因此需要使用 Importance Sampling (IS). IS 可能过大或者过小，在训练过程中带来不稳定性。

本文提出的方法基于 Policy Gradient，也需要利用 IS weight 来将 behavior policy 产生样本的分布转换到当前策略中。但本文提出了一系列方法来避免 IS weight 对学习产生不利的影响。

基本理论
策略梯度法的优化目标是最大化目标函数J(\theta)，该值通过对轨迹发生的概率和该轨迹的奖励积分求得：

省略了一些原帖的一些推导，在使用 Monte Carlo 估计情况下，可以将式(3)写成下式：

本文研究的是 off-policy 策略梯度，表明用于训练的轨迹产生至之前的某个策略参数 $\theta'$ 而非当前参数 $\theta$ 。因此，将式(3)等价的可以写成：

在这里插入图片描述
这里将需要积分的对象换掉，对上式进行 Monte Carlo 估计可以写为：

在这里插入图片描述

总之，就通过重要性采样，将过去旧的经验利用上了，说的是可以提高采样效率。

后面也对确定性策略梯度也做了一个针对性推导，反正我就不细说了，要是有复现过这篇文章的同学可以聊聊~

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hehedadaq 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。