Offline RL:Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning

收到求救信号

已于 2024-02-27 16:24:58 修改

阅读量785

点赞数 14

分类专栏：强化学习离线强化学习文章标签：人工智能

于 2024-02-27 16:23:33 首次发布

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/136323108

版权

强化学习同时被 2 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

ICLR 2022
Author:Chenjia Bai, Lingxiao Wang, Zhuoran Yang, Zhi-Hong Deng, Animesh Garg, Peng Liu, Zhaoran Wang
Keywords: Pessimistic Bootstrapping, Bootstrapped Q-functions, Uncertainty Estimation, Offline Reinforcement Learning
paper

1. Introduction

离线强化学习旨在利用离线数据，不与环境交互下学习策略。但容易受OOD数据影响导致外推误差。常用解决方法由：1）policy constraint以及2）conservative method。前者限制策略接近行为策略，容易受数据集质量影响；后者则是对OOD状态动作的Q-value值进行惩罚，但容易导致保守的价值估计。

对于OOD数据采用基于模型的不确定性度量被证明有效(MOPO、MOREL)，但在复杂环境下模型精确优化困难。

本文提出一种悲观自举的offline RL算法PBRL，基于数据不确定性度量的model-free方法。PBRL通过Bootstrapping Q functions进行价值迭代估计，并将其估计的标准差来量化不确定性，然后将不确定性量化作为惩罚项用于价值函数以及策略优化。除此外，提出一种OOD数据采样技术，作为学习到的Q函数的正则化器。

2. Method

在这里插入图片描述

2.1 UNCERTAINTY QUANTIFICATION WITH BOOTSTRAPPING

维持K个bootstrap Q函数用于不确定性估计。其中，第k个Q原始更新目标为：
$\widehat{\mathcal{T}}Q_\theta^k(s,a):=r(s,a)+\gamma\widehat{\mathbb{E}}_{s'\sim P(\cdot|s,a),a'\sim\pi(\cdot|s)}\Big[Q_{\theta^-}^k(s',a')\Big]$
通过K个Q函数的标准差进行不确定性估计
$\mathcal{U}(s,a):=\mathrm{Std}(Q^k(s,a))=\sqrt{\frac{1}{K}\sum_{k=1}^K\left(Q^k(s,a)-\bar{Q}(s,a)\right)^2}.$

2.2 PESSIMISTIC LEARNING

对于在离线数据集 $D_{in}$ 中数据，将不确定性度量作为惩罚项加入到Q函数的更新中
$\widehat{\mathcal{T}}^{\mathrm{in}}Q_{\theta}^{k}(s,a):=r(s,a)+\gamma\widehat{\mathbb{E}}_{s^{\prime}\sim P(\cdot|s,a),a^{\prime}\sim\pi(\cdot|s)}\Big[Q_{\theta^{-}}^{k}(s^{\prime},a^{\prime})-\beta_{\mathrm{in}}\mathcal{U}_{\theta^{-}}(s^{\prime},a^{\prime})\Big]$

而对于OOD的数据，PBRL首先从 $D_{in}$ 采样OOD states,然后由当前策略 $\pi(\cdot | s^{OOD})$ 得到OOD action, 这部分数据的Q更新如下：
$\hat{\mathcal{T}}^{\mathrm{ood}}Q_\theta^k(s^{\mathrm{ood}},a^{\mathrm{ood}}):=Q_\theta^k(s^{\mathrm{ood}},a^{\mathrm{ood}})-\beta_{\mathrm{ood}}\mathcal{U}_\theta(s^{\mathrm{ood}},a^{\mathrm{ood}})$
算法实现中，引入一个额外的截断稳定早期训练过程： $\max\{0,\mathcal{T}^{\mathrm{ood}}Q_{\theta}^{k}(s^{\mathrm{ood}},a^{\mathrm{ood}})\}.$
$\beta$ 是重要超参，在初始阶段的不确定估量不准确，因此采用较大值对Q函数保守估计，而随着训练的进行，不确定性估量逐渐稳定准确， $\beta$ 减小

综上两种迭代方法，对Critic的更新函数如下：
$\mathcal{L}_{\mathrm{critic}}=\widehat{\mathbb{E}}_{(s,a,r,s^{\prime})\sim\mathcal{D}_{\mathrm{m}}}\big[(\widehat{\mathcal{T}}^{\mathrm{in}}Q^{k}-Q^{k})^{2}\big]+\widehat{\mathbb{E}}_{s^{\mathrm{ood}}\sim\mathcal{D}_{\mathrm{in}},a^{\mathrm{ood}}\sim\pi}\big[(\widehat{\mathcal{T}}^{\mathrm{ood}}Q^{k}-Q^{k})^{2}\big],$

对于policy的更新目标为
$\pi_\varphi:=\max_\varphi\widehat{\mathbb{E}}_{s\sim\mathcal{D}_{\mathrm{in}},a\sim\pi(\cdot|s)}\Big[\min_{k=1,\ldots,K}Q^k(s,a)\Big]$