离线强化学习(Offline RL)系列3: (算法篇) CQL(Conservative Q-Learning)算法详解与实现

置顶

@RichardWang

已于 2022-04-12 18:12:18 修改

阅读量6.8k

点赞数 3

分类专栏：离线强化学习系列博客文章标签：离线强化学习 Offline RL CQL BEAR BCQ

于 2022-04-10 15:42:35 首次发布

本文链接：https://blog.csdn.net/gsww404/article/details/124079395

版权

这篇博客介绍了UCBerkeley团队提出的CQL算法，用于解决离线强化学习中的分布偏移问题。CQL通过在Q值函数上添加正则项，学习一个保守的Q函数，确保策略的值函数是真实的下界估计。该方法在理论和实验上都表现出色，尤其在处理复杂和多模态数据时。CQL算法的代码实现简洁，且已在多个基准上验证了其效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[更新记录]

论文信息：Conservative Q-Learning for Offline Reinforcement Learning]
[Code]

本文由UC Berkeley的Sergey Levine团队(一作是Aviral Kumar)于2020年提出，并发表在NIPS2020会议上。论文的主要思想是在 $Q$ 值基础上增加一个regularizer，学习一个保守的Q函数，作者从理论上证明了CQL可以产生一个当前策略的真实值下界，并且是可以进行策略评估和策略提升的过程。从代码的角度上来说，本文的regularizer只需要20行代码即可实现，大幅提升了实验结果。同时作者也全部opensource了代码，非常推荐研究。

摘要：在CQL算法出来之前，离线强化学习中对于分布偏移问题的解决思路是将待优化策略的动作选择限制在离线数据集的动作分布上，从而避免分布外的动作出现Q值的过估计问题，进而减少了未知的动作在策略训练学习过程中的影响，这种方法被称为策略约束（Policy constraint），比如离线强化学习中的BCQ和BEAR算法。CQL尝试通过修改值函数的back up方式，在 $Q$ 值的基础上添加一个regularizer，得到真实动作值函数的下界估计。实验表明，CQL的表现非常好，特别是在学习复杂和多模态数据分布的时候。

1、预备知识

1.1 sample error

离线数据集 $\mathcal{D}$ 是通过使用行为策略 $\pi_{\beta}(\mathbf{a} \mid \mathbf{s})$ 采样得到的， $d^{\pi_{\beta}}(\mathbf{s})$ 是折扣的边缘状态分布， $\mathcal{D} \sim d^{\pi_{\beta}}(\mathbf{s})\pi_{\beta}(\mathbf{a} \mid \mathbf{s})$ ，采样的过程会因为状态动作对的采样不充分产生sample error。

1.2 Operator

关于对Bellman算子的理解和策略迭代过程可以参考这篇文章，通过Bellman算子理解动态规划

1.2.1 Bellman operator

$\mathcal{B}^{\pi} Q=r+\gamma P^{\pi} Q$
$P^{\pi} Q(\mathbf{s}, \mathbf{a})=\mathbb{E}_{\mathbf{s}^{\prime} \sim T\left(\mathbf{s}^{\prime} \mid \mathbf{s}, \mathbf{a}\right), \mathbf{a}^{\prime} \sim \pi\left(\mathbf{a}^{\prime} \mid \mathbf{s}^{\prime}\right)}\left[Q\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right]$

1.2.2 Empirical Bellman operator

离线数据集无法包含所有动作的转移数据，因此只能用 $\mathcal{D}$ 中包含的数据进行back up，用 $\hat{\mathcal{B}}^{\pi}$ 表示。

1.2.3 Optimal Bellman operator

$\mathcal{B}^{*} Q(\mathbf{s}, \mathbf{a})=r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{s}^{\prime} \sim P\left(\mathbf{s}^{\prime} \mid \mathbf{s}, \mathbf{a}\right)}\left[\max _{\mathbf{a}^{\prime}} Q\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right]$

1.3 策略迭代

1.3.1 策略评估

当前我们在优化这个策略的过程中，会得到对应策略的值函数，根据值函数估计策略的价值。
$\hat{Q}^{k+1} \leftarrow \arg \min _{Q} \mathbb{E}_{\mathbf{s}, \mathbf{a}, \mathbf{s}^{\prime} \sim \mathcal{D}}\left[\left(\left(r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{a}^{\prime} \sim \hat{\pi}^{k}\left(\mathbf{a}^{\prime} \mid \mathbf{s}^{\prime}\right)}\left[\hat{Q}^{k}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right]\right)-Q(\mathbf{s}, \mathbf{a})\right)^{2}\right] \text { (policy evaluation) }$