Offline RL : Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories

收到求救信号

已于 2024-03-22 17:57:19 修改

阅读量713

点赞数 27

分类专栏：强化学习离线强化学习半监督文章标签：人工智能

于 2024-03-22 17:56:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/136935422

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

本文提出了一种在异质数据环境中处理离线强化学习的方法，通过半监督技术为无动作标签的数据生成动作标签，结合IDM模型和高斯分布进行动作预测，最后通过离线RL算法训练策略。

摘要由CSDN通过智能技术生成

ICML 2023
paper
code

Intro

文章研究异质数据上实现离线强化学习。该背景下的问题中，智能体的离线数据包含两种：1）带动作的标签数据 2）无动作标签数据。本文的方法采用半监督的方法为无标签的状态数据生成动作标签，这样就可以结合一般Offline RL算法。

Method

在这里插入图片描述

利用k-step的历史数据 $s_{\min(0,t-k)},\ldots,s_{t},s_{t+1}$ 预测当前时刻的动作 $a_t$ ，然后通过监督学习方法优化IDM模型。其中动作采样自高斯分布： $a_t\sim\mathcal{N}\big(\mu_\theta(\mathbf{s}_{t,-k}),\Sigma_\theta(\mathbf{s}_{t,-k})\big).$

完成IDM的训练后，便是对无标签数据进行标签填充，即将状态输入重新预测动作。文章在这里采用预测分布均值作为结果。预测结果将连同状态并结合标签数据，采用离线RL方法得到策略

收到求救信号

关注

27
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Offline RL : Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories

ICML 2023。
复制链接

扫一扫

专栏目录

收到求救信号

博客等级

码龄5年

92
原创

1554
点赞

1643
收藏

1168
粉丝

关注

私信

热门文章

分类专栏

强化学习 84篇
无监督RL 8篇
Model-based 12篇
离线强化学习 36篇
Model-free 15篇
O2O RL 20篇
模仿学习 12篇
Transformer 9篇
Preference 1篇
LfO 1篇
Theory RL
ReplayBuffer 1篇
推荐系统 1篇
半监督 1篇
对比RL 1篇
Pretrain 1篇
Sim2Real 1篇
其他
Zotero 1篇
Jetson TX2 2篇
Leetcode 2篇
python语法学习 3篇
opencv 1篇

最新评论

无监督RL：PAE: Reinforcement Learning from External Knowledge for Efficient Exploration
すもも141: 这个工作有开源吗
Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL
CSDN-Ada助手: 恭喜作者第20篇博客的发布！标题“Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL”听起来非常有深度，对于模拟器和实际环境的关系和信任问题进行了深入探讨。希望作者在未来的创作中可以继续深入探讨这一主题，或者结合实际案例进行分析，让读者更好地理解其中的原理和应用。期待作者的下一篇文章！
O2O:Actor-Critic Alignment for Offline-to-Online Reinforcement Learning
CSDN-Ada助手: 恭喜您发布了第18篇博客！看了您的文章之后，对O2O的Actor-Critic Alignment for Offline-to-Online Reinforcement Learning有了更深入的理解。不过，我觉得如果您能够进一步深入探讨该领域的实际应用案例，或者结合具体的算法进行案例分析，将会使您的博客内容更加丰富和有趣。希望您在接下来的创作中能够继续保持努力，期待您更多的精彩文章！
O2O:Offline–Online Actor–Critic
CSDN-Ada助手: 恭喜您发布了第19篇博客“O2O:Offline–Online Actor–Critic”！您的持续创作精神令人钦佩。建议您在下一步的创作中，可以深入探讨该主题的实际应用场景，或者尝试与其他领域进行交叉探索，以拓展您的思路和视野。期待看到更多精彩的内容，加油！
O2O：A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning
CSDN-Ada助手: 恭喜作者第15篇博客的发布！从标题来看，这篇博客似乎涉及到了离线到在线强化学习中的Q值估计，听起来非常有深度和挑战性。希望作者能够继续分享关于这个领域的见解和研究成果，或许可以考虑深入探讨具体的案例分析或者对未来发展方向的思考。期待作者的下一篇作品！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。