Offline RL : Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories

本文提出了一种在异质数据环境中处理离线强化学习的方法,通过半监督技术为无动作标签的数据生成动作标签,结合IDM模型和高斯分布进行动作预测,最后通过离线RL算法训练策略。
摘要由CSDN通过智能技术生成

ICML 2023
paper
code

Intro

文章研究异质数据上实现离线强化学习。该背景下的问题中,智能体的离线数据包含两种:1)带动作的标签数据 2)无动作标签数据。本文的方法采用半监督的方法为无标签的状态数据生成动作标签,这样就可以结合一般Offline RL算法。

Method

在这里插入图片描述

利用k-step的历史数据 s min ⁡ ( 0 , t − k ) , … , s t , s t + 1 s_{\min(0,t-k)},\ldots,s_{t},s_{t+1} smin(0,tk),,st,st+1预测当前时刻的动作 a t a_t at,然后通过监督学习方法优化IDM模型。其中动作采样自高斯分布: a t ∼ N ( μ θ ( s t , − k ) , Σ θ ( s t , − k ) ) . a_t\sim\mathcal{N}\big(\mu_\theta(\mathbf{s}_{t,-k}),\Sigma_\theta(\mathbf{s}_{t,-k})\big). atN(μθ(st,k),Σθ(st,k)).

完成IDM的训练后,便是对无标签数据进行标签填充,即将状态输入重新预测动作。文章在这里采用预测分布均值作为结果。预测结果将连同状态并结合标签数据,采用离线RL方法得到策略

  • 27
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值