Offline RL : SEABO: A Simple Search-Based Method for Offline Imitation Learning

收到求救信号

于 2024-03-21 10:52:15 发布

阅读量325

点赞数 5

分类专栏：强化学习离线强化学习文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/136900232

版权

强化学习同时被 2 个专栏收录

95 篇文章

订阅专栏

离线强化学习

38 篇文章

订阅专栏

本文介绍了一种名为SEABO的离线强化学习方法，通过无监督学习方式为无标签数据分配奖励，利用KD-tree搜索最近的专家演示，设计基于距离的奖励函数，结合其他OfflineRL方法进行策略优化。算法提供了解决现实环境中数据标注难题的新途径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NIPS 2024
paper

Intro

离线强化学习一般需要带奖励标签的数据，而现实中这种标签获取困难。本文提出一种基于搜索的离线方法SEABO。SEABO以无监督学习的方式，对最接近专家演示的transaction较大的奖励，否则分配较小的奖励。
在这里插入图片描述

Method

SEABO采用KD-tree搜索最近邻的专家数据，距离度量方法采用默认的欧氏距离： $d=D((\tilde{s}_{e},\tilde{a}_{e},\tilde{s}_{e}^{\prime}),(s,a,s^{\prime}))$ 。

奖励函数的设计将基于上面的距离 $d:r=\alpha\exp\left(-\frac{\beta\times d}{|\mathcal{A}|}\right)$ 。这样无标签的数据将获得奖励标签，然后结合其他Offline RL方法进一步优化策略。算法伪代码如下：
在这里插入图片描述

收到求救信号

博客等级

码龄6年

107
原创

1763
点赞

1834
收藏

1283
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Zotero如何设置彩色标签
m0_74368367: 在标签的列设置里选left，别选right试试
Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
无监督RL：PAE: Reinforcement Learning from External Knowledge for Efficient Exploration
すもも141: 这个工作有开源吗
Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL
CSDN-Ada助手: 恭喜作者第20篇博客的发布！标题“Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL”听起来非常有深度，对于模拟器和实际环境的关系和信任问题进行了深入探讨。希望作者在未来的创作中可以继续深入探讨这一主题，或者结合实际案例进行分析，让读者更好地理解其中的原理和应用。期待作者的下一篇文章！
O2O:Actor-Critic Alignment for Offline-to-Online Reinforcement Learning
CSDN-Ada助手: 恭喜您发布了第18篇博客！看了您的文章之后，对O2O的Actor-Critic Alignment for Offline-to-Online Reinforcement Learning有了更深入的理解。不过，我觉得如果您能够进一步深入探讨该领域的实际应用案例，或者结合具体的算法进行案例分析，将会使您的博客内容更加丰富和有趣。希望您在接下来的创作中能够继续保持努力，期待您更多的精彩文章！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。