Offline RL:Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning

最新推荐文章于 2024-07-28 15:37:27 发布

收到求救信号

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量863

点赞数 30

分类专栏：强化学习离线强化学习文章标签：人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/137113195

版权

强化学习同时被 2 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

本文提出了一种新的离线强化学习方法PBRL，通过利用模型自由的Q函数不确信度量来精确表征OOD数据，避免了过度拟合。方法中，PBRL估计OOD动作并采用递减的惩罚机制，确保早期训练稳定性。Critic估计包括对in-distribution和OOD数据的双重优化，策略则通过最大化Q函数并结合动作熵正则化进行优化。

摘要由CSDN通过智能技术生成

ICLR 2022
paper

Intro

离线强化学习容易因为OOD数据导致外推误差。以往的方法采用保守Q估计或者是策略约束。这些方法限制对OOD数据价值泛化以及缺乏对这些数据的精确表征。本文提出悲观不确信度量的离线强化学习方法PBRL。

Method

在这里插入图片描述

为了有效对OOD数据精确表征，部分model-based 离线方法证明不确信度量方法的有效性，但是需要离线数据学习动力学模型。本文model-free的方法则是利用对多个Q函数进行不确信度量，并作为惩罚项加入Q函数的自举过程：
$\widehat{\mathcal{T}}^\text{in}Q_\theta^k(s,a):=r(s,a)+\gamma\widehat{\mathbb{E}}_{s'\sim P(\cdot|s,a),a'\sim\pi(\cdot|s)}\Big[Q_{\theta^-}^k(s',a')-\beta_\text{in}\mathcal{U}_{\theta^-}(s',a')\Big]$
其中不确信度量估计函数 $\mathcal{U}$ 则是采用多个Q的标准差：
$\mathcal{U}(s,a):=\text{Std}(Q^k(s,a))=\sqrt{\frac{1}{K}\sum_{k=1}^K\left(Q^k(s,a)-\bar{Q}(s,a)\right)^2}$

然而这些数据均是来自数据集 $D_{in}$ , 因此PBRL提出一种对OOD数据的估计方法。其中OOD的动作随机采样自均匀分布
$\widehat{\mathcal{T}}^{\mathrm{ood}}Q_\theta^k(s^{\mathrm{ood}},a^{\mathrm{ood}}):=Q_\theta^k(s^{\mathrm{ood}},a^{\mathrm{ood}})-\beta_{\mathrm{ood}}\mathcal{U}_\theta(s^{\mathrm{ood}},a^{\mathrm{ood}}),$
为了稳定早期训练过程对该值进行截断 $\max\{0,\mathcal{T}^\mathrm{ood}Q_{\theta}^{k}(s^\mathrm{ood},a^\mathrm{ood})\}$ ，同时参数 $\beta_{\mathrm{ood}}$ 在训练过程中呈现递减的变化趋势，这是因为早期Q网络以及不确定性度量是不准确，因此需要较大值予以惩罚；而随着训练的进行，Q值逐渐预测准确，该惩罚应该渐渐减轻。

综上对Critic的估计由两部分构成：
$\mathcal{L}_{\text{critic}}=\widehat{\mathbb{E}}_{(s,a,r,s')\sim\mathcal{D}_{\text{in}}}\big[(\widehat{\mathcal{T}}^{\text{in}}Q^k-Q^k)^2\big]+\widehat{\mathbb{E}}_{s^{\text{ood}}\sim\mathcal{D}_{\text{in}},a^{\text{ood}}\sim\pi}\big[(\widehat{\mathcal{T}}^{\text{ood}}Q^k-Q^k)^2\big]$

而对于策略则是最大化Q函数优化,同时添加动作熵进行正则化：
$\pi_\varphi:=\max_\varphi\widehat{\mathbb{E}}_{s\sim\mathcal{D}_{\mathrm{in}},a_\sim\pi(\cdot|s)}\Big[\min_{k=1,\ldots,K}Q^k(s,a)-\log\pi(a_{\pi}|s)\Big],$