Offline RL : SEABO: A Simple Search-Based Method for Offline Imitation Learning

本文介绍了一种名为SEABO的离线强化学习方法,通过无监督学习方式为无标签数据分配奖励,利用KD-tree搜索最近的专家演示,设计基于距离的奖励函数,结合其他OfflineRL方法进行策略优化。算法提供了解决现实环境中数据标注难题的新途径。
摘要由CSDN通过智能技术生成

NIPS 2024
paper

Intro

离线强化学习一般需要带奖励标签的数据,而现实中这种标签获取困难。本文提出一种基于搜索的离线方法SEABO。SEABO以无监督学习的方式,对最接近专家演示的transaction较大的奖励,否则分配较小的奖励。
在这里插入图片描述

Method

SEABO采用KD-tree搜索最近邻的专家数据,距离度量方法采用默认的欧氏距离: d = D ( ( s ~ e , a ~ e , s ~ e ′ ) , ( s , a , s ′ ) ) d=D((\tilde{s}_{e},\tilde{a}_{e},\tilde{s}_{e}^{\prime}),(s,a,s^{\prime})) d=D((s~e,a~e,s~e),(s,a,s))

奖励函数的设计将基于上面的距离 d : r = α exp ⁡ ( − β × d ∣ A ∣ ) d:r=\alpha\exp\left(-\frac{\beta\times d}{|\mathcal{A}|}\right) d:r=αexp(Aβ×d)。这样无标签的数据将获得奖励标签,然后结合其他Offline RL方法进一步优化策略。算法伪代码如下:
在这里插入图片描述

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值