Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization

最新推荐文章于 2024-07-28 15:37:27 发布

收到求救信号

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量784

点赞数 27

分类专栏：离线强化学习强化学习 Preference 文章标签：人工智能算法深度学习机器学习

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139179424

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

Preference

1 篇文章 0 订阅

订阅专栏

ICML 2023
paper
code
preference based offline RL，基于HIM，不依靠额外学习奖励函数

Intro

本研究聚焦于离线偏好引导的强化学习（Offline Preference-based Reinforcement Learning, PbRL），这是传统强化学习（RL）的一个变体，它不需要在线交互或指定奖励函数。在这个框架下，代理（agent）被提供了固定的离线轨迹数据和人类对轨迹对的偏好，用以提取动态信息和任务信息。

由于动态信息和任务信息是正交的，简单的方法可能涉及先基于偏好学习奖励函数，然后使用现成的离线RL算法。然而，这需要单独学习一个标量奖励函数，然而该过程被认为存在信息瓶颈。

为了解决这个问题，作者提出了一种新的范式——离线偏好引导策略优化（Offline Preference-guided Policy Optimization, OPPO），它通过对离线轨迹和偏好直接建模，消除了单独学习奖励函数的需要。OPPO通过引入一个离线后见信息匹配目标（HIM）来优化上下文策略，以及一个偏好建模目标来找到最优上下文。OPPO进一步通过迭代优化这两个目标来整合一个表现良好的决策策略。实证结果表明，OPPO有效地模拟了离线偏好，并且在包括真实或伪奖励函数指定的离线RL算法在内的先前竞争基线上取得了更好的性能。

Method

在这里插入图片描述

HIM-driven Policy Optimization

$\min\limits_{\pi,I_\theta}\mathcal{L}_{\mathbf{HIM}}:=\underset{\tau\sim\mathcal{D}(\tau)}{\operatorname*{\mathbb{E}}}\left[\ell\left(I_\theta(\tau),I_\theta(\tau_\mathbf{z})\right)+\ell\left(\tau,\tau_\mathbf{z}\right)\right]$
其中 $\mathcal{l}$ 为损失函数。

Preference Modeling

$\min_{\mathbf{z}^*,I_\theta}\mathcal{L}_{\mathbf{PM}}:=\mathbb{E}\Big[\max(\ell(\mathbf{z}^*,\mathbf{z}^+)-\ell(\mathbf{z}^*,\mathbf{z}^-)+m,0)\Big]$
通过优化上式得到最佳embedding，使得条件策略产生的轨迹经过embedding后接近 $z^+$

Training Objectives & Implementation Detai

$\mathcal{L}_{\mathrm{total}}:=\mathcal{L}_{\mathrm{HIM}}+\alpha\mathcal{L}_{\mathrm{PM}}+\beta\mathcal{L}_{\mathrm{norm}}$

采用BERT结构作为encoder ： $I_{\theta}:\tau\to\mathbf{z}$ ；采用GPT作为上下文条件策略 $\pi(a|s,z)$ , 通过自回归建模预测未来的动作

伪代码

在这里插入图片描述

results

在这里插入图片描述

收到求救信号

关注

27
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization

ICML 2023preference based offline RL，基于HIM，不依靠额外学习奖励函数。
复制链接

扫一扫

专栏目录