O2O:Uncertainty-Driven Pessimistic Q-Ensemble for Offline-to-Online Reinforcement Learning

最新推荐文章于 2024-07-28 15:37:27 发布

收到求救信号

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量969

点赞数 8

分类专栏：强化学习 O2O RL 文章标签：人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/137078197

版权

强化学习同时被 2 个专栏收录

84 篇文章 1 订阅

订阅专栏

O2O RL

20 篇文章 0 订阅

订阅专栏

NIPS 2022 Offline RL Workshop
paper

Intro

O2O存在OOD数据导致价值函数的错误估计，进而导致策略出现performance drop。一些方法例如Off2OnRL采用集成悲观的Q估计方法，缓解分布偏移导致的这种Bootstrapping errors。同时该方法还提出一种Balanced ReplayBuffer将离线数据应用于在线过程。

本文提出的方法UPQ沿用集成悲观Q估计的同时，采用对Q函数加入基于不确信度量的惩罚。

Method

在这里插入图片描述

对集成Q函数以及策略沿用Off2OnRL的方法：
$\begin{aligned}Q_\theta^E(s,a)&:=\frac{1}{N}\sum_{i=1}^NQ_{\theta_i}(s,a),\\\pi_\phi^E(\cdot|s)&=\mathcal{N}\bigg(\frac{1}{N}\sum_{i=1}^N\mu_{\phi_i}(s),\quad\frac{1}{N}\sum_{i=1}^N\bigg(\sigma_{\phi_i}^2(s)+\mu_{\phi_i}^2(s)\bigg)-\mu_{\phi}^2(s)\bigg),\end{aligned}$
对Q函数的不确信度量方法如下：
$\mathcal{U}_{\theta_{-}}(s',a'):=\sigma(Q_{\theta_{-}}(s',a'))=\sqrt{\frac{1}{N}\sum_{i=1}^{N}\left(Q_{\theta_{-}}(s',a')-Q_{\theta_{-}}^{E}(s',a')\right)^2,}$

将Q的不确定性度量加入bellman算子：
$\mathcal{T}Q_{\theta}^{E}(s,a):=r(s,a)+\gamma\mathbb{E}_{a^{\prime}\sim\pi_{\phi}^{E}}\Big[Q_{\theta-}^{E}(s^{\prime},a^{\prime})-\alpha\log\pi_{\phi}^{E}(a^{\prime}|s^{\prime})-\beta\mathcal{U}_{\theta-}(s^{\prime},a^{\prime})\Big]$

接下来对Critic以及Actor的更新如下：
$\begin{aligned}\mathcal{L}_{Critic}(\theta)=\mathbb{E}_{(s,a,s')\sim\mathcal{B}}\bigg[\bigg(Q_\theta^E(s,a)-\mathcal{T}Q_\theta^E(s,a)\bigg)^2\bigg],\\\\\mathcal{L}_{Actor}(\phi)=\mathbb{E}_{s\sim\mathcal{B},a\sim\pi_\phi^E}\bigg[\alpha\log\pi_\phi^E(a|s)-Q_\theta^E(s,a)\bigg],\end{aligned}$

收到求救信号

关注

8
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
O2O:Uncertainty-Driven Pessimistic Q-Ensemble for Offline-to-Online Reinforcement Learning

O2O存在OOD数据导致价值函数的错误估计，进而导致策略出现performance drop。一些方法例如Off2OnRL采用集成悲观的Q估计方法，缓解分布偏移导致的这种Bootstrapping errors。同时该方法还提出一种Balanced ReplayBuffer将离线数据应用于在线过程。本文提出的方法UPQ沿用集成悲观Q估计的同时，采用对Q函数加入基于不确信度量的惩罚。
复制链接

扫一扫

专栏目录