Offline RL : Offline Reinforcement Learning with Uncertainty Critic Regularization Based on Density

收到求救信号

已于 2024-06-06 17:15:20 修改

阅读量725

点赞数 24

分类专栏：离线强化学习 Model-free 强化学习文章标签：人工智能机器学习算法

于 2024-06-06 17:11:30 首次发布

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139504441

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

Model-free

15 篇文章 0 订阅

订阅专栏

IJCNN 2023
paper
code
在PBRL的悲观价值估计的基础上，添加一个基于VAE的ELBO的密度估计权重。同时，将算法进一步推广到在线阶段，实现乐观的价值估计。

Intro

离线强化学习时长因为OOD数据导致价值函数的错误估计。离线RL通常使用策略约束、价值函数正则化或不确定性估计等方法，使学习到的策略接近行为策略。然而，策略约束方法会限制策略在次优行为策略附近的区域；价值函数正则化方法不能准确评估OOD（Out-of-Distribution，即分布外）行为，可能导致在估计接近分布的行为的Q值时过于保守；不确定性估计可能因为复杂环境或训练初期的不准确估值而产生偏差。

本文使用Density-UCR（基于密度估计的不确定性评论家正则化）来解决这些问题。Density-UCR通过为Q函数估计提供低置信区间（LCB）并使用集成Q函数的估计误差作为惩罚值来惩罚OOD行为。此外，Density-UCR使用密度估计器对离线数据的分布进行建模，以获得更准确的惩罚值的不确定性权重。该方法还将不确定性估计用作优先级重放缓冲区的权重，以增加在线微调的稳定性，并防止离线样本相对于在线样本的分布变化导致性能下降。实验表明，Density-UCR在D4RL基准测试中显著优于传统的策略约束方法和价值函数正则化方法，并且在微调性能方面表现优异。

Method

在这里插入图片描述

Explicit Estimation of Behavioral Density Distribution

$\begin{aligned}\max_{\Phi,\Psi}\mathbb{E}_{q_{\Phi}(z|s,a)}\left[p_{\Psi}(a|s,z)\right]-\beta D_{KL}\left[q_{\Phi}(z|s,a)||p(z|s)\right]]\doteq\mathcal{L}_{ELBO}(s,a;\Phi,\Psi)\end{aligned}$
采用VAE对离线数据中的状态动作密度分布进行估计。该ELBO将作为权重值衡量不确定性

Offline Pessimistic Learning

类似PBRL，对分布内以及分布外的数据分别进行悲观Q估计。对于分布内
$\mathfrak{B}^{in}Q_{\phi_{k}}(s,a):=r(s,a)+\gamma\mathbb{E}_{s^{\prime}\sim T,a^{\prime}\sim\pi_{\theta}}[\min_{i=1,...,N}Q_{\phi_{i}^{\prime}}(s^{\prime},a^{\prime})-\alpha_{in}\mathcal{L}_{ELBO}(s^{\prime},a^{\prime};\Phi,\Psi)\mathcal{P}^{\prime}(s^{\prime},a^{\prime})]$

对于OOD的数据
$\mathfrak{B}^{ood}Q_{\phi_{k}}(s,a^{ood}):=Q_{\phi_{k}}(s,a^{ood})-\alpha_{ood}\mathcal{L}_{ELBO}(s,a^{ood};\Phi,\Psi)\mathcal{P}(s,a^{ood})$

二者联合优化 $\begin{aligned}\mathcal{L}_{critic}^{offline}&=\mathbb{E}_{(s,a,r,s^{\prime})\sim\mathcal{D}_{off}}[(\mathfrak{B}^{in}Q_{\phi_{k}}-Q_{\phi_{k}})^{2}]+\mathbb{E}_{s\sim\mathcal{D}_{off},a^{ood}\sim\pi_{\theta}}[(\mathfrak{B}^{ood}Q_{\phi_{k}}-Q_{\phi_{k}})^{2}]\end{aligned}$
策略优化则是最小化 $\mathcal{L}_{policy}^{offline}=\mathbb{E}_{s\sim\mathcal{D}_{off},a^{\prime}\sim\pi_{\theta}(\cdot|s)}\left[-\min_{k=1,...,N}Q_{\phi_{k}}(s,a^{\prime})\right]$

Online Phase

Priority Experience Replay

将离线数据中累计reward最高的50条轨迹初始化在线Buffer，同时优先经验回访机制的Buffer，对样本的采样概率受ELBO影响
$w(s,a)=\sigma(-2.0*\mathcal{L}_{ELBO}(s,a;\Phi,\Psi)), ~~~~~~~\sigma(x)=\frac1{1+e^{-x}}.$

同时，为了防止离线阶段悲观的价值估计导致在线阶段策略探索能力不足，采用乐观的Q估计
$\begin{aligned}\mathfrak{B}^{on}Q_{\phi_{k}}(s,a)&:=r(s,a)+\gamma\mathbb{E}_{s'\sim T,a'\sim\pi_{\theta}}[Q_{\phi'}(s',a')\\&+\alpha_{on}\mathcal{L}_{ELBO}(s',a';\Phi,\Psi)\mathcal{P}'(s',a')]\end{aligned}$

而Critic以及Actor估计如下
$\mathcal{L}_{critic}^{online}=\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}_{on}}[(\mathfrak{B}^{on}Q_{\phi_k}-Q_{\phi_k})^2]\\ \mathcal{L}_{policy}^{online}=\underset{s\sim\mathcal{D}_{on},a^{\prime}\sim\pi_{\theta}(\cdot|s)}{\operatorname*{\mathbb{E}}}\left[-\underset{k=1,...,N}{\operatorname*{min}}Q_{\phi_{k}}(s,a^{\prime})\right]$

结果

在这里插入图片描述

收到求救信号

关注

24
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
Offline RL : Offline Reinforcement Learning with Uncertainty Critic Regularization Based on Density

IJCNN 2023在PBRL的悲观价值估计的基础上，添加一个基于VAE的ELBO的密度估计权重。同时，将算法进一步推广到在线阶段，实现乐观的价值估计。
复制链接

扫一扫

专栏目录