Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization

ICML 2023
paper
code
preference based offline RL,基于HIM,不依靠额外学习奖励函数

Intro

本研究聚焦于离线偏好引导的强化学习(Offline Preference-based Reinforcement Learning, PbRL),这是传统强化学习(RL)的一个变体,它不需要在线交互或指定奖励函数。在这个框架下,代理(agent)被提供了固定的离线轨迹数据和人类对轨迹对的偏好,用以提取动态信息和任务信息。

由于动态信息和任务信息是正交的,简单的方法可能涉及先基于偏好学习奖励函数,然后使用现成的离线RL算法。然而,这需要单独学习一个标量奖励函数,然而该过程被认为存在信息瓶颈。

为了解决这个问题,作者提出了一种新的范式——离线偏好引导策略优化(Offline Preference-guided Policy Optimization, OPPO),它通过对离线轨迹和偏好直接建模,消除了单独学习奖励函数的需要。OPPO通过引入一个离线后见信息匹配目标(HIM)来优化上下文策略,以及一个偏好建模目标来找到最优上下文。OPPO进一步通过迭代优化这两个目标来整合一个表现良好的决策策略。实证结果表明,OPPO有效地模拟了离线偏好,并且在包括真实或伪奖励函数指定的离线RL算法在内的先前竞争基线上取得了更好的性能。

Method

在这里插入图片描述

HIM-driven Policy Optimization

min ⁡ π , I θ L H I M : = E ⁡ τ ∼ D ( τ ) [ ℓ ( I θ ( τ ) , I θ ( τ z ) ) + ℓ ( τ , τ z ) ] \min\limits_{\pi,I_\theta}\mathcal{L}_{\mathbf{HIM}}:=\underset{\tau\sim\mathcal{D}(\tau)}{\operatorname*{\mathbb{E}}}\left[\ell\left(I_\theta(\tau),I_\theta(\tau_\mathbf{z})\right)+\ell\left(\tau,\tau_\mathbf{z}\right)\right] π,IθminLHIM:=τD(τ)E[(Iθ(τ),Iθ(τz))+(τ,τz)]
其中 l \mathcal{l} l为损失函数。

Preference Modeling

min ⁡ z ∗ , I θ L P M : = E [ max ⁡ ( ℓ ( z ∗ , z + ) − ℓ ( z ∗ , z − ) + m , 0 ) ] \min_{\mathbf{z}^*,I_\theta}\mathcal{L}_{\mathbf{PM}}:=\mathbb{E}\Big[\max(\ell(\mathbf{z}^*,\mathbf{z}^+)-\ell(\mathbf{z}^*,\mathbf{z}^-)+m,0)\Big] z,IθminLPM:=E[max((z,z+)(z,z)+m,0)]
通过优化上式得到最佳embedding,使得条件策略产生的轨迹经过embedding后接近 z + z^+ z+

Training Objectives & Implementation Detai

L t o t a l : = L H I M + α L P M + β L n o r m \mathcal{L}_{\mathrm{total}}:=\mathcal{L}_{\mathrm{HIM}}+\alpha\mathcal{L}_{\mathrm{PM}}+\beta\mathcal{L}_{\mathrm{norm}} Ltotal:=LHIM+αLPM+βLnorm

采用BERT结构作为encoder : I θ : τ → z I_{\theta}:\tau\to\mathbf{z} Iθ:τz;采用GPT作为上下文条件策略 π ( a ∣ s , z ) \pi(a|s,z) π(as,z), 通过自回归建模预测未来的动作

伪代码

在这里插入图片描述

results

在这里插入图片描述

  • 27
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值