offline RL介绍

最新推荐文章于 2025-03-12 14:22:22 发布

CHH3213

最新推荐文章于 2025-03-12 14:22:22 发布

阅读量1.9k

点赞数 2

分类专栏：学习强化学习文章标签： RL offline

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42301220/article/details/123927665

版权

学习强化学习专栏收录该内容

22 篇文章

订阅专栏

本文探讨了离线强化学习(Offline RL)的基本概念，强调了其在没有环境交互情况下训练的特性，面临的挑战包括探索难题、分布偏移和策略超越数据集。着重介绍了基于重要性采样的方法如何帮助算法在固定数据集上学习，以及它在降低方差上的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

参考资料
1. offline RL概念
2. Offline RL 中的困难
3. 基于重要性采样的 Offline RL 与离线策略评估

参考资料

Offline Reinforcement Learning Review

本篇博客为《Offline Reinforcement Learning Review》摘抄，指摘抄了自己感兴趣的。如想深入了解可直接点击上方参考资料链接。

1. offline RL概念

Offline RL 舍弃了和环境的交互，让 agent 在一个固定的数据集（batch）上进行训练，从而得到想要的策略。
Offline RL 可以被定义为 data-driven 形式的强化学习问题。在不和环境交互的情况下，来使目标最大化：

$J(\pi)=\mathbb{E}_{\tau \sim p_{\mathrm{s}}(\tau)}\left[\sum_{t=0}^{H} \gamma r\left(s_{t}, a_{t}\right)\right]$

我们给算法提供一个静态的数据集$ {(s^i_t, a^i_t, s^i_{t+1}, r_t^i)}$，并且通过数据集来学到最好的策略。其本质上，Offline RL 需要学习算法从固定的数据集中获得对 MDP 的充分的理解，并构造一个策略 π(a|s)，以在实际交互中获得最多的累计奖励。

2. Offline RL 中的困难

造成 Offline RL 学习困难的原因有很多。其中最主要的困难是：学习算法需要完全的依赖于静态数据集 D，但是没有办法提高探索，因为不和环境进行交互，就无法知道探索得到的数据是否有效，所以 Offline RL 不可能通过探索发现高奖励的区域。而且，并没有办法解决此问题，所以，假设数据集D 可以充分的覆盖高奖励的转移对。

实际中更加重要的挑战是， Offline RL 需要从观测到的数据集 D 中，学习到一个超越 D 中观测到的数据的策略。

在监督学习中，我们希望从训练数据集中学到网络可以在测试数据集上获得较好的性能，且测试数据和训练数据是独立
同分布的。而 Offline RL 中，我们希望学到的策略和在数据集 D 上观测的不一样，所以会造成非常严重的分布偏移的问题。

Offline RL 中训练目标和最终想得到的目标并不一样。那么，我们的函数模拟器（策略，值函数，模型）需要在一个分布下训练，而将在不同的分布下评估，为了最大化累计收益，对于同一个状态，新策略也会给出不同的动作。

如果不注意尽量的减少不利的影响，分布偏移可能会对从任何一个固定数据集中学习到的策略，都造成非常大的影响。

3. 基于重要性采样的 Offline RL 与离线策略评估

事实上所有的 off-policy 算法都可以改为 offline 算法，最直接的方法之一就是重要性采样.

统计里面评估参数估计的好坏有三个性质：无偏性，有效性，一致性，方差一高，有效性就低。

Off-Policy 算法中经常将重要性权重作为正则化项，以保证学习策略和采样策略之间差距不会太大。

重要性采样的目标函数，需要将每个时刻的重要性权重连乘起来，所以会导致非常大的方差，这或许就是重要性采样方差较大的本质原因。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CHH3213 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。