离线强化学习-4 DP-based方法

最新推荐文章于 2024-05-31 10:07:01 发布

Nemo555

最新推荐文章于 2024-05-31 10:07:01 发布

阅读量603

点赞数 1

分类专栏： Deep RL 文章标签：深度强化学习机器学习算法

本文链接：https://blog.csdn.net/weixin_40056577/article/details/116379132

版权

Deep RL 专栏收录该内容

27 篇文章 49 订阅

订阅专栏

Offline RL 基于动态规划的方法

概述
一、线性结构的值函数分析
二、Offline RL via Dynamic Programming
DP总结

概述

上两篇文章主要探讨了Importance sampling 和 Duality-based这类方法的主要数学原理，并推导出要求梯度的目标。
重要性采样：方差很大
Duality：缓解了方差大的问题，但其目标梯度的更新过程仍需要对值函数进行拟合，但其对于有专家数据而言是一类非常新颖的方法。
下面要介绍Dynamics-Programming based的Offline RL方法，主要针对的对象就是值函数。
在一个Offline Datasets中拟合值函数更多是一个Supervised Learning的学习范式，所以会遇到OOD（Out-of-distribution）的外推问题。
抽象地说关于OOD的方法，都可以在Offline RL setting 上进行尝试。（当然性能影响最大的肯定是数据集，毕竟监督学习90%的时间和精力都要放在数据上）😉
具体地说就是解决distribution shift问题的方法都可以在Offline RL setting上进行尝试。

符号	含义
$f (s, a)$	组成Q值 $Q (s, a)$ 的线性特征
$\pi_\beta(a\mid s)$	行为策略behavior policy，一般认为是收集离线数据集的策略

一、线性结构的值函数分析

1.1 基础概述

其实这个对于理解而言是非常有用的，对于一个具体的 $(s, a)$ ，提取一个 $d$ 维度特征 $f(s,a)\in \mathbb R^d$ ，将 $\mathcal{|S|\times |A|}$ 个 $(s, a)$ 所对应的特征表示为 $\bold F\in \mathbb R^{\mathcal {|S|\times |A|}\times d}$ 。只是线性结构分析直接假设 $f (s, a)$ 已知，而不是通过神经网络这个特征提取器学出来。

建模一个具体的Q-值为 $Q_\phi(s,a)=f(s,a)^\top \phi$ ，一个Q-Table为 $\vec Q_\phi = \boldsymbol{ F\phi}$ ，因此Bellman Operator操作这个Q-Table为 $\vec Q^\pi = \mathcal B^\pi \vec Q^\pi$ ，唯一的未知是参数 $\phi$ 。

重点解释一下 $\mathcal B^\pi Q(s,a)=r(s,a)+\gamma \mathbb E_{s'\sim T(\cdot|s,a),a'\sim \pi(\cdot|s')}[Q(s',a')]=r(s,a)+\gamma P^\pi Q(s,a)$ ：对于一个具体 $(s, a)$ 的Q值，它的Target Q值为 $r(s,a)+\gamma \mathbb E_{s'\sim T(\cdot|s,a),a'\sim \pi(\cdot|s')}[Q(s',a')]$ .

所以已知 $\bold F$ ，线性结构建模Q函数： $Q_\phi(s,a)=f(s,a)^\top\phi$ ，Q-Table的角度看有： $\vec Q_\phi = \boldsymbol {F\phi}$

1.2 Bellman Residual minimization

目的：希望 $Q_\phi(s,a)\rightarrow Q^\pi(s,a)$ ，需要满足Bellman Operator的约束：
$\begin{aligned} \vec Q^\pi &=\mathcal B^\pi\vec Q^\pi=\vec R+\gamma P^\pi\boldsymbol{ F\phi}\\ &\Longrightarrow \boldsymbol{ F\phi}\approx \vec R+\gamma P^\pi\boldsymbol{ F\phi}\\ &\Longrightarrow \vec R\approx (\boldsymbol{F}-\gamma P^\pi \boldsymbol{F})\boldsymbol \phi \end{aligned}$

优化问题为（目标的平方形式默认假设选择了 $\ell_2$ 距离）：

$\begin{aligned} \min_\phi (\mathcal B^\pi \vec Q_\phi-\vec Q_\phi)^2 \end{aligned}$

直接求解的话，参数 $\phi$ 为 $\boldsymbol{\phi = }((\boldsymbol{F}-\gamma P^\pi \boldsymbol{F})^\top (\boldsymbol{F}-\gamma P^\pi \boldsymbol{F}))^{-1}(\boldsymbol{F}-\gamma P^\pi \boldsymbol{F}) \vec R$

1.3 Least-squares fixed point approximation

上一小节的Bellman Residual Minimization是直接求解。这里采用fixed point迭代的方式。即：初始化一个Q-Table $\vec Q_0=\boldsymbol {F\phi_0}$ 来逼近 $\vec Q^\pi$ ：

$\vec Q_{k+1}\leftarrow \mathcal B^\pi\vec Q_k$

当 $k\rightarrow \infty$ ，有 $\vec Q_k\rightarrow \vec Q^\pi$ ;（因为有 $\mathcal B^\pi$ 在）；

展开理解一波：（记住 $\boldsymbol {F}$ 假设是人为设计好的特征，是已知的)
$\boldsymbol {F\phi_{k+1}}\leftarrow \mathcal B^\pi\boldsymbol {F\phi_{k}}$

$\boldsymbol{F}$ 表征了一个特征空间， $\boldsymbol{\phi_k}$ 象征着该空间的一个坐标点，然后 $\mathcal B^\pi$ 是一个operator，操作特征空间 $\boldsymbol{F}$ 中的一个点 $\boldsymbol{\phi_k}$ 到”同一个“特征空间 $\boldsymbol{F}$ 中的另一个点 $\boldsymbol{\phi_{k+1}}$ 。

问题来了：谁说 $\mathcal B^\pi$ 这个operator的变换，能确保特征空间 $\boldsymbol{F}$ 不变？
所以，要维持这个不变性，得学一个特征不变的子空间 $\Omega$ 才行即：
$\boldsymbol {F\phi_{k+1}}=\Omega \mathcal B^\pi\boldsymbol {F\phi_{k}}$

那这个 $\Omega$ 长什么样？嗯，套进去 $\ell_2$ 距离的目标，最小化求出来：
$\min_\Omega (\boldsymbol {F\phi_{k+1}}-\Omega \mathcal B^\pi\boldsymbol {F\phi_{k}})^2$

所以 $\Omega=\boldsymbol{F}(\boldsymbol{F}^\top\boldsymbol{F})^{-1}\boldsymbol{F}^\top$

因此参数迭代更新的公式为： $\boldsymbol{\phi_{k+1}}=(\boldsymbol{F}^\top\boldsymbol{F})^{-1}\boldsymbol{F}^\top(\vec R+\gamma P^\pi \boldsymbol F\boldsymbol{\phi_k})$

1.4 总结

这能帮助我们理解什么呢？

策略真实的Q函数 $Q^\pi(s,a)$ ，人为设计的特征空间 $\boldsymbol{F}$ 难以cover到，换句话说，空间没有一个点 $\boldsymbol{\phi}$ 能表示真实的Q函数值，因为特征空间的supports不足，换句话说特征空间的结构容量小。
需要拟合真实的Q(s,a)有两要素，一个是supports（见过的(s,a)对，见完全没？）另一个是Q值（对于见过的(s,a)，预测的Q值准确吗？）

Offline RL的评估环境：在静态数据集 $\mathcal D$ 上训练一个learned policy，希望它在真实测试环境上表现得更好。（所以训练的效果不一定能反映测试的效果，根据OOD（Out-of-distribution）的理论，一取决于数据集的sufficient coverage，二取决于训练环境中提取到的invariance即learned policy能否泛化到测试环境）

二、Offline RL via Dynamic Programming

Offline主要问题：在一个假设用 $\pi_\beta(a|s)$ 收集的静态数据集 $\mathcal D=\{(s,a,r,s')\}_{i=1}^n$ 中，要得到当前策略 $\pi$ 的Q值 $Q^\pi(s,a)$ ，其Target Q值 $r(s,a)+\gamma \mathbb E_{s'\sim T(\cdot|s,a),a'\sim \pi(\cdot|s')}[Q(s',a')]$ 在Offline的计算中 $a'\sim \pi(\cdot|s')$ 这一步明显是有问题的。

评估 $\mathcal D$ 中的一个样本(s,a)的Q值 $Q^\pi(s,a)$ 时，用了当前策略 $\pi(\cdot|s')$ 的期望算Q值，期望就意味着会取到在 $\mathcal D$ 中没有的动作值 $a^{''}$ ，即 $Q (s^{'}, a^{''})$ 的估计会严重偏差！为啥？因为是Offline 的数据集，所以Q值的拟合本应该是跟着数据集 $\mathcal D$ 进行拟合的，但更新的目标Q值却会出现out-of-distribution action。

2.1 policy constraint methods

基本想法：约束target Q value 即 $r(s,a)+\gamma \mathbb E_{s'\sim T(\cdot|s,a),a'\sim \pi(\cdot|s')}[Q(s',a')]$ 中选择 $a^{'}$ 的方式与behavior distribution $\pi_\beta(a'|s')$ 差不多

$\begin{array}{l} \text{policy evaluation : }\hat{Q}_{k+1}^{\pi} \leftarrow \arg \min _{Q} \mathbb{E}_{\left(\mathbf{s}, \mathbf{a}, \mathbf{s}^{\prime}\right) \sim \mathcal{D}}\left[\left(Q(\mathbf{s}, \mathbf{a})-\left(r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{a}^{\prime} \sim \pi_{k}\left(\mathbf{a}^{\prime} \mid \mathbf{s}^{\prime}\right)}\left[\hat{Q}_{k}^{\pi}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right]\right)\right)^{2}\right] \\ \text{policy improvement : }\pi_{k+1} \leftarrow \arg \max _{\pi} \mathbb{E}_{\mathbf{s} \sim \mathcal{D}}\left[\mathbb{E}_{\mathbf{a} \sim \pi(\mathbf{a} \mid \mathbf{s})}\left[\hat{Q}_{k+1}^{\pi}(\mathbf{s}, \mathbf{a})\right]\right] \text { s.t. } D\left(\pi, \pi_{\beta}\right) \leq \epsilon \end{array}$

细化一下：
1. 实际问题用 $\mathcal D$ 中的样本进行Policy evaluation学习评估策略 $\pi$ 的Q值 $Q^\pi(s,a)$
1. 用学习到的 $Q^\pi(s,a)$ ，针对数据集中的状态 $s\sim d^\mathcal D(s)$ 进行Policy Improvement，更新策略
1. 为了实现基本想法，加了个policy 约束即 $D\left(\pi, \pi_{\beta}\right) \leq \epsilon$
1. 这个约束涉及到分布的bound，因为要选择合适的probability metric来定义两个action distribution（行为策略&当前策略）之间的“分布距离”
1. 选择好probability metric后，进而得思考实现这个约束bound的具体方式

首先是可选择的probability metric：

f-divergence
距离定义： $D_{f}\left(\pi(\cdot \mid \mathbf{s}), \pi_{\beta}(\cdot \mid \mathbf{s})\right)=\mathbb{E}_{\mathbf{a} \sim \pi(\cdot \mid \mathbf{s})}\left[f\left(\frac{\pi(\mathbf{a} \mid \mathbf{s})}{\pi_{\beta}(\mathbf{a} \mid \mathbf{s})}\right)\right]$ 距离该目标的对偶形式（变分形式）： $D_{f}\left(\pi(\cdot \mid \mathbf{s}), \pi_{\beta}(\cdot \mid \mathbf{s})\right)=\max _{x: S \times A \rightarrow \mathbb{R}} \mathbb{E}_{\mathbf{a} \sim \pi(\cdot \mid \mathbf{s})}[x(\mathbf{s}, \mathbf{a})]-\mathbb{E}_{\mathbf{a}^{\prime} \sim \pi_{\beta}(\cdot \mid \mathbf{s})}\left[f^{*}\left(x\left(\mathbf{s}, \mathbf{a}^{\prime}\right)\right)\right]$
Integral probability metric（IPM）
IPM距离的对偶形式：
$D_{\Phi}\left(\pi(\cdot \mid \mathbf{s}), \pi_{\beta}(\cdot \mid \mathbf{s})\right)=\sup _{\phi \in \Phi, \phi: S \times A \rightarrow \mathbb{R}}\left|\mathbb{E}_{\mathbf{a} \sim \pi(\cdot \mid \mathbf{s})}[\phi(\mathbf{s}, \mathbf{a})]-\mathbb{E}_{\mathbf{a}^{\prime} \sim \pi_{\beta}(\cdot \mid \mathbf{s})}\left[\phi\left(\mathbf{s}, \mathbf{a}^{\prime}\right)\right]\right|$

当 $\Phi$ 为Hilbert norm定义的RKHS函数空间时，IPM变为maximum mean discrepancy（MMD）距离，其中 $k$ 为kernel：
$\begin{aligned} \operatorname{MMD}^{2}\left(\pi(\cdot \mid \mathbf{s}), \pi_{\beta}(\cdot \mid \mathbf{s})\right)=& \mathbb{E}_{\mathbf{a} \sim \pi(\cdot \mid \mathbf{s}), \mathbf{a}^{\prime} \sim \pi(\cdot \mid \mathbf{s})}\left[k\left(\mathbf{a}, \mathbf{a}^{\prime}\right)\right]- 2 \mathbb{E}_{\mathbf{a} \sim \pi(\cdot \mid \mathbf{s}), \mathbf{a}^{\prime} \sim \pi_{\beta}(\cdot \mid \mathbf{s})}\left[k\left(\mathbf{a}, \mathbf{a}^{\prime}\right)\right]+\mathbb{E}_{\mathbf{a} \sim \pi_{\beta}(\cdot \mid \mathbf{s}), \mathbf{a}^{\prime} \sim \pi_{\beta}(\cdot \mid \mathbf{s})}\left[k\left(\mathbf{a}, \mathbf{a}^{\prime}\right)\right] \end{aligned}$

当 $\Phi$ 为一个单位的Lipschitz常数定义的函数空间时，IPM变为Earth-mover distance（Wasserstein distance）距离，其对偶形式为：
$W_{1}\left(\pi(\cdot \mid \mathbf{s}), \pi_{\beta}(\cdot \mid \mathbf{s})\right)=\sup _{f,\|f\|_{L} \leq 1}\left|\mathbb{E}_{\mathbf{a} \sim \pi(\cdot \mid \mathbf{s})}[f(\mathbf{a})]-\mathbb{E}_{\mathbf{a} \sim \pi_{\beta}(\cdot \mid \mathbf{s}}[f(\mathbf{a})]\right|$

Asymmetrically-Relaxed Distribution Alignment¹
基于对抗训练方式得到的分布距离度量子，感兴趣进一步可参阅具体文献

选择完probability metric后，要确定该distribution measure和约束 $D\left(\pi, \pi_{\beta}\right) \leq \epsilon$ 的具体实现方式

2.1.1 直接实现方式——Policy penalty

把约束 $D\left(\pi, \pi_{\beta}\right) \leq \epsilon$ 当作惩罚项加在Policy Improvement和Evaluation上：
$\begin{aligned} \hat{Q}_{k+1}^{\pi} & \leftarrow \arg \min _{Q} \mathbb{E}_{\left(\mathbf{s}, \mathbf{a}, \mathbf{s}^{\prime}\right) \sim \mathcal{D}}\left[\left(Q(\mathbf{s}, \mathbf{a})-\left(r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{a}^{\prime} \sim \pi_{k}\left(\mathbf{a}^{\prime} \mid \mathbf{s}^{\prime}\right)}\left[\hat{Q}_{k}^{\pi}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right]-\alpha \gamma D\left(\pi_{k}\left(\cdot \mid \mathbf{s}^{\prime}\right), \pi_{\beta}\left(\cdot \mid \mathbf{s}^{\prime}\right)\right)\right)\right)^{2}\right] \\ \pi_{k+1} & \leftarrow \arg \max _{\pi} \mathbb{E}_{\mathbf{s} \sim \mathcal{D}}\left[\mathbb{E}_{\mathbf{a} \sim \pi(\mathbf{a} \mid \mathbf{s})}\left[\hat{Q}_{k+1}^{\pi}(\mathbf{s}, \mathbf{a})\right]-\alpha D\left(\pi(\cdot \mid \mathbf{s}), \pi_{\beta}(\cdot \mid \mathbf{s})\right)\right] \end{aligned}$

假如选择f散度当距离度量 $D$ ，计算该度量要用变分形式，需要用额外的网络来拟合信号 $x (s, a)$ ： $D_{f}\left(\pi(\cdot \mid \mathbf{s}), \pi_{\beta}(\cdot \mid \mathbf{s})\right)=\max _{x: S \times A \rightarrow \mathbb{R}} \mathbb{E}_{\mathbf{a} \sim \pi(\cdot \mid \mathbf{s})}[x(\mathbf{s}, \mathbf{a})]-\mathbb{E}_{\mathbf{a}^{\prime} \sim \pi_{\beta}(\cdot \mid \mathbf{s})}\left[f^{*}\left(x\left(\mathbf{s}, \mathbf{a}^{\prime}\right)\right)\right]$

更为直接地实现可以把这个约束加到reward函数中：

$\bar r(s,a)=r(s,a)-\alpha f\left(\frac{\pi(a|s)}{\pi_\beta(a|s)}\right)$

2.1.2 间接实现的方式——Policy Update Structure

把约束 $D\left(\pi, \pi_{\beta}\right) \leq \epsilon$ 在Policy Improvement中以某种流程实现策略在该约束内实现更新：
$\begin{aligned} &\hat{Q}_{k}^{\pi} \leftarrow \arg \min _{Q} \mathbb{E}_{\left(\mathbf{s}, \mathbf{a}, \mathbf{s}^{\prime}\right) \sim \mathcal{D}}\left[\left(Q(\mathbf{s}, \mathbf{a})-\left(r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{a}^{\prime} \sim \pi_{k-1}\left(\mathbf{a}^{\prime} \mid \mathbf{s}^{\prime}\right)}\left[\hat{Q}_{k-1}^{\pi}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right]\right)\right)^{2}\right]\\ &\bar{\pi}_{k+1}(\mathbf{a} \mid \mathbf{s}) \leftarrow \frac{1}{Z} \pi_{\beta}(\mathbf{a} \mid \mathbf{s}) \exp \left(\frac{1}{\alpha} \hat Q_{k}^{\pi}(\mathbf{s}, \mathbf{a})\right) \\ &\pi_{k+1} \leftarrow \argmin_\pi D_{\mathrm{KL}}\left(\bar{\pi}_{k+1}, \pi\right) \end{aligned}$

大致理解一下原理：

从 $\mathcal D$ 中学习一个Q函数 $\hat Q_{k}^{\pi}(\mathbf{s}, \mathbf{a})$
从 $\pi_\beta(\mathbf{a|s})$ 中采样一些in-distribution的动作，衡量该动作的Q值当作权重 $\hat Q_{k}^{\pi}(\mathbf{s}, \mathbf{a})$
对第2步的采样值进行normalize即 $\frac{1}{Z}$ ，形成一个介于 $\pi$ 与 $\pi_\beta$ 之间的策略 $\bar{\pi}_{k+1}$
在KL 距离下寻找与 $\bar{\pi}_{k+1}$ 最近的策略

具体的算法有如AWR²，ABM³，AWAC⁴

2.1.3 新颖的实现方式——Constrain Supports

当我们选择probability metric当作约束的时候，即 $\text { s.t. } D\left(\pi, \pi_{\beta}\right) \leq \epsilon$ ，约束分布的要素是probability density，选择f-divergence变分形式的话如下： $D_{f}\left(\pi(\cdot \mid \mathbf{s}), \pi_{\beta}(\cdot \mid \mathbf{s})\right)=\max _{x: S \times A \rightarrow \mathbb{R}} \mathbb{E}_{\mathbf{a} \sim \pi(\cdot \mid \mathbf{s})}[x(\mathbf{s}, \mathbf{a})]-\mathbb{E}_{\mathbf{a}^{\prime} \sim \pi_{\beta}(\cdot \mid \mathbf{s})}\left[f^{*}\left(x\left(\mathbf{s}, \mathbf{a}^{\prime}\right)\right)\right]$

计算分布的对象 $\pi(\cdot|s)$ 在离散分布中是一个概率值，在连续分布中是概率密度，所以约束的是分布的概率要素
因此，转换一下角度，约束分布的supports行不行？（supports可以理解为 $(s,a)\sim \mathcal D$ ，即数据集中 $(s, a)$ 的覆盖度，因为不可能遇到 $\mathcal{|S|\times |A|}$ 空间中所有 $(s, a)$ 的值，是集合的概念——支撑集）

有什么用呢？Kumar大神在2019年BAIR博客中举了一个简单的例子：

(a)：真实世界，初始状态在 $S$ ，目标状态在 $G$ ，动作两个维度向左向右。在 $S$ 左半的状态，两个动作的执行奖励均为0； $S$ 右半的状态，向左动作奖励为-1，向右动作奖励为1，设计这样的奖励，希望策略学会从 $S\rightarrow G$
(b)：行为策略Behavior Policy收集的离线数据集 $\mathcal D$ 反映出来的情况是，S左半的状态动作必往左；S右半的状态动作0.9概率往左，0.1概率往右；
(c )：从(b)的离线数据集，约束的实现基于probability density实现的话（即distribution matching），大概率会学到“向左”这个动作，这样就到达不了
(d): 从（b）的离线数据集，约束的实现基于probability support实现的话（即distribution support），那么策略就有可能到达 $G$

这例子的关键是在说，如果约束的对象是分布 $\pi(\cdot|s)$ 的概率值，那如果Offline Datasets达到high reward region的概率低，基于这种约束，learned policy达到高奖励区域的概率也低。但如果约束的是Offline Datasets见过的“high reward region”即supports，基于这种约束，learned policy的概率倾向高奖励区域的概率就增高了！

那怎么实现support mathcing呢？(以离散动作举一例：

$D_{support,\epsilon}\left(\pi(\cdot|s),\pi_\beta(\cdot|s)\right)=\sum_{a\in A,a'\sim\pi_\beta(a|s)\leq \epsilon}\pi(a'|s)$

把behavior policy即 $\pi_\beta(a|s)$ 中很少出现的动作 $a'\leq \epsilon$ 拿出来，将当前策略 $\pi$ 中的这个动作 $a^{'}$ 的概率值(probability density)加在一起作为惩罚。基本思想：通过对当前策略惩罚那些在 $\mathcal D$ 中出现很少的动作，达到以support方式约束策略 $\pi(\cdot|s)$ 的目的。

2.1.4 总结：策略约束的实现方式

问题描述：计算目标Q值时 $r(s,a)+\gamma \mathbb E_{s'\sim T(\cdot|s,a),a'\sim \pi(\cdot|s')}[Q(s',a')]$ 中的 $a'\sim \pi(\cdot|s')$ 有可能会遇到离线数据集中 $\mathcal D$ 没怎么出现过的动作如 $a^{''}$ ，这样计算 $Q (s^{'}, a^{''})$ 时会出现严重偏差。

因此解决问题的第一个角度是要对策略 $\pi(\cdot|s)$ 进行约束：

分布要素宏观上有probability density / supports两种，这两种分布约束的构建怎么针对问题进行选择？
分布约束构建确定好了，分布的距离度量有f-divergence 、IPM、Asymmetrically-Relaxed Distribution Alignment等多个选择，不同分布度量有不同的效果，怎么针对问题进行选择？
不同分布度量的数值计算方法有不同的误差，比如变分形式逼近或用某种算法迭代计算或样本量直接估计分布距离等，这些距离的近似误差又会造成什么影响？
分布约束的构建、度量、数值计算都确定好了，怎么将它在嵌入模型对象中去？可选择的对象有：actor/ Q-value/ reward/ MDP中的dynamics。比如策略约束直接加到reward中，或者Q-value的目标中，或者内嵌到actor update的流程中，或者MDP的dynamics中等。

那策略约束就真这么好吗？其实它有一个最为致命的问题，从而催生出下一种方法。

致命缺陷：这些方法的计算都建立在 $\pi_\beta(a|s)$ 已知，那这玩意怎么得到？从 $\mathcal D$ 中behavior cloning出来的，于是它的准确性就决定了构建在它上面的policy constraint方法性能的上限。

2.2 Uncertainty-based methods

Offline主要问题描述：计算目标Q值时 $r(s,a)+\gamma \mathbb E_{s'\sim T(\cdot|s,a),a'\sim \pi(\cdot|s')}[Q(s',a')]$ 中的 $a'\sim \pi(\cdot|s')$ 有可能会遇到离线数据集中 $\mathcal D$ 没怎么出现过的动作如 $a^{''}$ ，这样计算 $Q (s^{'}, a^{''})$ 时会出现严重偏差。

因此解决问题的第二个角度是对不在 $\mathcal D$ 中的动作 $a^{''}$ ，计算 $Q (s^{'}, a^{''})$ 的不确定性，根据不确定性对计算目标Q值的严重偏差进行修正，总体描述下：

什么是 $Q (s^{'}, a^{''})$ 的不确定性？如何表示不确定性？
不确定性，意味着对象是分布，因此 $Q (s^{'}, a^{''})$ 的不确定性，意味着需要维持一个Q函数的分布！
某策略分布 $\pi$ 的Q函数分布是维持在离线数据集 $\mathcal D$ 上的，记为 $\mathcal {P_D}(Q^\pi)$
怎么表示 $\mathcal {P_D}(Q^\pi)$ ？先简单点，对于一个对 $(s^{'}, a^{''})$ 维持一定数量的Q网络比如 $Q_1(s',a''),Q_2(s',a''),...,Q_n(s',a'')$ ，每个Q值的概率相同，这样不就形成Q函数的分布了嘛 $\mathcal {P_D}(Q^\pi)$ ！

总体描述流程为：

$\begin{array}{l} \text{policy evaluation : }\mathcal {P_D}(Q^\pi_{k+1}) \leftarrow \arg \min _{\mathcal {P_D}(Q^\pi)} \mathbb{E}_{\left(\mathbf{s}, \mathbf{a}, \mathbf{s}^{\prime}\right) \sim \mathcal{D}}\left[\left(\mathcal {P_D}(Q^\pi_{k})-\left(r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{a}^{\prime} \sim \pi_{k}\left(\mathbf{a}^{\prime} \mid \mathbf{s}^{\prime}\right)}\left[\mathbb E_{\mathcal {P_D}(Q^\pi_{k})}[\hat{Q}_{k}^{\pi}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)]\right]\right)\right)^{2}\right] \\ \text{policy improvement : }\pi_{k+1} \leftarrow \arg \max _{\pi} \mathbb{E}_{\mathbf{s} \sim \mathcal{D}}\left[\mathbb{E}_{\mathbf{a} \sim \pi(\mathbf{a} \mid \mathbf{s})}\left[\mathbb E_{\hat{Q}_{k+1}^{\pi}(\mathbf{s}, \mathbf{a})\sim \mathcal {P_D}(Q^\pi_{k+1})}[Q^\pi_{k+1}\mathbf{(s,a)}]-\alpha \text{Unc}(\mathcal {P_D}(Q^\pi_{k+1}))\right]\right] \end{array}$

在Policy improvement中，对不确定性高的Q值进行保守估计。

那需要研究什么呢？

Q函数的分布怎么表示？（分布的结构如线性、高斯、凸性等）
分布的不确定性 $\mathcal {P_D}(Q^\pi)$ 的计算方式？（利用分布的统计量以某种计算方式得出uncertainty，简单点的就直接方差当作不确定性啥的）
怎么更新、维护这个Q函数的分布？（更新统计量的方式）

这个能work的关键点：基于不确定性方法的前提是不确定性的估计 $\mathcal {P_D}(Q^\pi)$ 得比较正确才行呀！

2.2.1 Conservative Q Learning⁵

参数化一个Q函数 $\phi$ ，进行policy evaluation这一步：

它原来的目标描述为：

$\begin{aligned} \text{Policy Optimization}&=\mathbb{E}_{\left(\mathbf{s}, \mathbf{a}, \mathbf{s}^{\prime}\right) \sim \mathcal{D}}\left[\left(Q_\phi(\mathbf{s}, \mathbf{a})-\left(r(\mathbf{s}, \mathbf{a})+\gamma \mathbb{E}_{\mathbf{a}^{\prime} \sim \pi_{k}\left(\mathbf{a}^{\prime} \mid \mathbf{s}^{\prime}\right)}\left[\hat{Q}_\phi^{\pi}\left(\mathbf{s}^{\prime}, \mathbf{a}^{\prime}\right)\right]\right)\right)^{2}\right]\\ &=\mathbb{E}_{\left(\mathbf{s}, \mathbf{a}, \mathbf{s}^{\prime}\right) \sim \mathcal{D}}\left[\Big(Q_\phi(s,a)-\mathcal B^\pi Q_\phi(s,a)\Big)^2\right]\\ &=\mathcal{E(B,\phi)} \end{aligned}$

然后对该目标加一些基于不确定性的惩罚：

$\begin{aligned} \text{Policy Optimization}=\min_\phi\mathcal{E(B,\phi)}+\alpha \mathcal{C(B,\phi)} \end{aligned}$

怎么选择这个 $\alpha \mathcal{C(B,\phi)}$ ，就衍生了不少算法，重点介绍一下CQL：

$\mathcal C_0(B,\phi)=\mathbb E_{s\sim \mathcal D,a\sim \mu (\cdot|s)}[Q_\phi(s,a)]$ $\mu=\argmax_\mu \mathbb E_{s\sim \mathcal D}\left[\mathbb E_{a\sim \mu(\cdot|s)}[Q_\phi(s,a)]+\mathcal H(\mu (\cdot|s))\right]$

重点理解：策略 $\mu$ 是尽可能选择“会遇到Q值大”的策略，意味着 $\mu$ 更偏向于选择”过高估计Q值的动作“，换句话说，这些“过高估计Q值的动作”相对于 $\mathcal D$ 来说更可能是out-of-distribution的。因此 $\min_\phi \mathcal {E(B,\phi)}$ 拟合Q函数的同时，对out-of-distribution的action也做了考量 $\min_\phi \mathcal {C_0(B,\phi)}$ ，让那些分布外的Q值低一点！

或者更直接一点：让 $\mathcal D$ 分布外的Q值与 $\mathcal D$ 分布内的Q值之间的差值变小，惩罚改为：

$\mathcal{C}_{\mathrm{CQL}_{1}}(B, \phi)=\mathbb{E}_{\mathbf{s} \sim B, \mathbf{a} \sim \mu(\mathbf{a} \mid \mathbf{s})}\left[Q_{\phi}(\mathbf{s}, \mathbf{a})\right]-\mathbb{E}_{(\mathbf{s}, \mathbf{a}) \sim B}\left[Q_{\phi}(\mathbf{s}, \mathbf{a})\right]$

DP总结

DP-based方法主要目的是学习一个Q函数。
但Q函数的学习，如果是与环境交互的话，那误差是可以被纠正的；但如果是离线的数据集，就会出现误差，且误差不断被利用，严重影响性能。

Policy Constraint的方法缺点是需要一个比较准确的 $\pi_\beta(a|s)$ 的估计；因此，未来展望是希望能通过 $\pi_\beta(a|s)$ 中的样本与“分布 $\pi(\cdot|s)$ ”或”分布的采样样本“之间的度量，就能近似估计分布距离。
Uncertainty-based好一点，只需要关注针对Q函数分布怎样获取“更准确”uncertainty的问题，意味着未来能提出更多新算法，更多坑。
两种方法的构建过程中，仍需要大量的探索，可选分布的结构、可选分布的度量、可选分布的构建方式等等，都影响着性能，需要有一定的理论指导。