Offline RL ：Goal-Conditioned Predictive Coding for Offline Reinforcement Learning

最新推荐文章于 2024-09-06 13:43:01 发布

收到求救信号

最新推荐文章于 2024-09-06 13:43:01 发布

阅读量412

点赞数 5

分类专栏：强化学习离线强化学习 Transformer 文章标签：机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139068102

版权

强化学习同时被 3 个专栏收录

86 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

NIPS 2023
paper
code

Intro

基于序列模型表征的两阶段离线强化学习算法。该两阶段框架，首先使用序列模型来编码轨迹级别的表示，然后学习一个以这些编码表示作为输入的条件性策略。

Method

Trajectory Representation Learning

采用encoder-decoder结构实现状态序列重构以及序列特征表示。
$\hat{\tau},B=f_\phi(\text{Masked}(\tau),g)$
在这里插入图片描述
其中对状态序列添加掩码（masked）来提高encoder的表征能力, 而掩码的方式是对History state随机掩码，Future state完全掩码。Goal可以是序列轨迹状态的随机采样 ${s_i\}_{i=t+1}^{H}$ ，也可以是平均轨迹累计奖励( $\mathrm{i.e.}g=\frac{1}{H-t+1}\sum_{i=t}^{H}r_{i},$ )。

Policy Learning

第二阶段便是利用encoder得到的隐变量，联合状态以及goal, 通过监督学习实现策略学习

在这里插入图片描述
轨迹表示学习和策略学习解耦，独立地优化每个阶段，提高学习的灵活性和效率。Policy采用目标条件预测编码（Goal-Conditioned Predictive Coding, GCPC）——通过学习Goal为条件的潜在表示来编码未来轨迹，对于决策制定至关重要。下面图片展示了采取GCPC有效提高算法性能。
在这里插入图片描述

results

在这里插入图片描述

Limitations

1.GCPC 通过对离线收集的轨迹执行最大似然估计来模拟未来，这可能会预测过于乐观的未来行为并导致随机环境中的次优动作。未来的工作包括通过考虑 GCPC 生成的多个对环境随机性具有鲁棒性的策略。
2. 当涉及高维状态时，GCPC可能不足以保持长期未来预测的高精度

收到求救信号

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Offline RL ：Goal-Conditioned Predictive Coding for Offline Reinforcement Learning

NIPS 2023。
复制链接

扫一扫

专栏目录

收到求救信号 CSDN认证博客专家 CSDN认证企业博客

码龄5年

94: 原创

9万+: 周排名

2万+: 总排名

8万+: 访问

: 等级

2591: 积分

1188: 粉丝

1586: 获赞

12: 评论

1677: 收藏

私信

关注

热门文章

分类专栏

ICML 2024 2篇
强化学习 86篇
Model-free 16篇
ICLR 2024 1篇
O2O RL 20篇
无监督RL 8篇
Model-based 12篇
离线强化学习 36篇
模仿学习 12篇
Transformer 9篇
Preference 1篇
LfO 1篇
Theory RL
ReplayBuffer 1篇
推荐系统 1篇
半监督 1篇
对比RL 1篇
Pretrain 1篇
Sim2Real 1篇
其他
Zotero 1篇
Jetson TX2 2篇
Leetcode 2篇
python语法学习 3篇
opencv 1篇

最新评论

Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
无监督RL：PAE: Reinforcement Learning from External Knowledge for Efficient Exploration
すもも141: 这个工作有开源吗
Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL
CSDN-Ada助手: 恭喜作者第20篇博客的发布！标题“Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL”听起来非常有深度，对于模拟器和实际环境的关系和信任问题进行了深入探讨。希望作者在未来的创作中可以继续深入探讨这一主题，或者结合实际案例进行分析，让读者更好地理解其中的原理和应用。期待作者的下一篇文章！
O2O:Actor-Critic Alignment for Offline-to-Online Reinforcement Learning
CSDN-Ada助手: 恭喜您发布了第18篇博客！看了您的文章之后，对O2O的Actor-Critic Alignment for Offline-to-Online Reinforcement Learning有了更深入的理解。不过，我觉得如果您能够进一步深入探讨该领域的实际应用案例，或者结合具体的算法进行案例分析，将会使您的博客内容更加丰富和有趣。希望您在接下来的创作中能够继续保持努力，期待您更多的精彩文章！
O2O:Offline–Online Actor–Critic
CSDN-Ada助手: 恭喜您发布了第19篇博客“O2O:Offline–Online Actor–Critic”！您的持续创作精神令人钦佩。建议您在下一步的创作中，可以深入探讨该主题的实际应用场景，或者尝试与其他领域进行交叉探索，以拓展您的思路和视野。期待看到更多精彩的内容，加油！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。