（CQL）Conservative Q-Learning for Offline Reinforcement Learning

最新推荐文章于 2024-04-09 10:13:18 发布

卉卉卉大爷

最新推荐文章于 2024-04-09 10:13:18 发布

阅读量1.5k

点赞数 1

分类专栏： Offline RL 强化学习

本文链接：https://blog.csdn.net/sinat_37422398/article/details/111594345

版权

强化学习同时被 2 个专栏收录

18 篇文章 4 订阅

订阅专栏

Offline RL

4 篇文章 0 订阅

订阅专栏

Abstract

$\qquad$ 在大规模、现实世界应用中，强化学习如何有效利用庞大的、历史收集的 datasets 是一个关键挑战。 $Offline\; RL$ 算法旨在利用 $p r e v i o u s l y - c o l l e c t e d$ 、 $\; datasets\; without \; further \; interaction$ 学习有效的策略。然而，在实践中， $Offline\; RL$ 代表了一个主要的挑战，标准的 $o f f - p o l i c y R L$ 算法可能由于 $d a t a s e t$ 和 $l e a r n e d p o l i c y$ 之间的分布差异导致的过估计而失效，尤其是当在一个 $c o m p l e x$ 、 $\; data \; distributions$ 上训练时。

$\qquad$ 在本文中，我们提出了 $\; Q-learning (CQL)$ ，旨在学习一个保守的 $Q - f u n c t i o n$ ，即通过该 $Q - f u n c t i o n$ 得到的值是其真实值的下界。

$\qquad$ 我们从理论上证明了CQL产生了一个当前策略的价值的下界，它是一个有 $\; improvement \; guarantees$ 的 $\; learning \; procedure$ （ 策略学习过程 ）。在实践中，CQL通过一个简单的 $\; regularizer$ 对标准Bellman误差目标进行了扩展，该正则化器在现有 deep q-learning 和actor-critic实现之上易于实现。在离散和连续控制领域，我们表明CQL实质上优于现有的离线RL方法，通常学习策略获得2-5倍的高最终回报，特别是在学习复杂和多模态数据分布时。

3、The Conservative Q-Learning (CQL) Framework

$\qquad$ 我们提出了一个 $\; Q-learning (CQL)$ 算法，通过这个算法学习到的一个 $p o l i c y$ 的 $Q - f u n c t i o n$ 的期望值是其真实值的下界。 $Q - v a l u e$ 的下界可以防止 $Offline\; RL$ 设置中常见的由于OOD动作和函数逼近错误而导致的过高估计[36,32]。我们使用 $C Q L$ 泛指Q-learning方法和actor-critic方法，尽管后来也使用明确的策略。我们首先关注 $C Q L$ 中的策略评估步骤，它本身可以作为一个非策略评估过程使用，或者集成到一个完整的 $Offline\; RL$ 算法中，我们将在3.2节中讨论。

3.1 Conservative Off-Policy Evaluation

$\qquad$ 我们想估计在行为策略 $\pi_{\beta}(a|s)$ 下生成的数据集 $D$ 中的 $\; policy\; \pi$ 的价值 $\; V^{\pi}(s)$ 。因为我们注重防止对策略值的过高估计，所以我们想学习一个保守的下界 $Q - f u n c t i o n$ ，在最小化 $\; Bellman \; error \; objective$ 的同时，最小化 $Q - v a l u e$ 。我们选择的惩罚项是，最小化在特定 $\; pairs$ 分布下 $Q - v a l u e$ 的期望。由于标准的 $Q - f u n c t i o n$ 训练不查询未观测 $s t a t e$ 的 $Q - f u n c t i o n$ ，但是查询未观测 $a c t i o n$ 的 $Q - f u n c t i o n$ 。我们限制 $\mu$ 来与数据集中的 state-marginal 匹配，即 $\mu(s,a) = d^{\pi_{\beta}}\mu(a|s)$ 。这样就可以进行训练过程中 $Q - f u n c t i o n$ 的迭代更新：
在这里插入图片描述
$\qquad$ 其中 $\alpha$ 是权衡因子。

$\qquad$ 在 $Theorem\;3.1$ 中，我们展示了对于所有的 $(s, a)$ ， $Q - f u n c t i o n$ 是 $Q^\pi$ 的下界：
在这里插入图片描述
$\qquad$ 然而，如果只想估计 $V^\pi(s)$ ，我们可以大幅收紧这个下界。如果我们需要 $\pi(a|s)$ 下的 $\hat{Q_{\pi}}$ 的期望是 $V^\pi(s)$ 的下界，我们可以通过引入一个额外的 data 分布 $\pi_{\beta}(a|s)$ 下的 $\; maximization \; term$ 来提升这个上界。迭代更新公式为：
在这里插入图片描述
$\qquad$ 在 $Theorem\;3.2$ 中，我们展示了结果 $\; \hat{Q}_{\pi}$ 不是 a point-wise lowerbound，当的时候有。直观上，公式（2）在最大化行为策略 $\hat{\pi}_{\beta}$ 下的 $Q - v a l u e$ 时， $\hat{\pi}_{\beta}$ 下的动作的 $Q - v a l u e s$ 更可能被过估计，因此 $\hat{Q}^{\pi}$ 不一定是 $Q^{\pi}$ 的 pointwise 下界。而最大化项中原则上可以利用除了 $\hat{\pi}_{\beta}(a|s)$ 的其他分布，我们在附录D.2中证明了结果值不能保证是其他分布的下界。

$\qquad$ 公式（1）展示了基础的 CQL 公式，学到的 $Q - f u n c t i o n$ 是真是 $\; Q^{\pi}$ 的下界，公式（2）展示了 $\; Q-value \; of \; the \; policy$ 的更 $t i g h e r$ 的下界。通过选择比较好的 $\alpha$ 两个公式都可行，一般 $\alpha$ 设置的比较小。

3.2 Conservative Q-Learning for Offline RL

$\qquad$ 将结果应用于一个 $\; RL \; algorithm$

$\qquad$ 提出 $\; policy \; learning$ 的一般化方法 —— $\; Q-learning \; (CQL)$
$\qquad$

在这里插入图片描述

卉卉卉大爷

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（CQL）Conservative Q-Learning for Offline Reinforcement Learning

Abstract\qquad 在大规模、现实世界应用中，强化学习如何有效利用庞大的、历史收集的 datasets 是一个关键挑战。Offline RLOffline\; RLOfflineRL 算法旨在利用 previously−collectedpreviously-collectedpreviously−collected、static datasets without further interactionstatic \; datasets\; without \; further \;
复制链接

扫一扫