O2O : OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning

最新推荐文章于 2024-09-06 10:38:06 发布

收到求救信号

最新推荐文章于 2024-09-06 10:38:06 发布

阅读量943

点赞数 24

分类专栏： O2O RL 强化学习 Model-free 文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139636788

版权

强化学习同时被 3 个专栏收录

86 篇文章 1 订阅

订阅专栏

O2O RL

20 篇文章 0 订阅

订阅专栏

Model-free

16 篇文章 0 订阅

订阅专栏

ICML 2024
paper
code
解决离线到在线过程中，判别器对齐问题。

Intro

传统采用离线模仿学习结合基于GAIL的在线模仿学习，容易因为在线阶段初始化的判别器表现具有随机性，与离线获得的策略不一致。因此，本文提出的OLLIE，便是利用混合质量的数据，实现判别器与策略之间的对齐，从何防止O2O的performance drop。

Method

GAIL

GAIL是一种传统在线模仿学习算法，其目标是对抗的学习一个判别器，用于区分专家数据与在线数据
$\min_\pi\max_D\mathbb{E}_{\rho^\pi}[\log D(s,a)]+\mathbb{E}_{\bar{\rho}^e}[\log(1-D(s,a))].(2)$ .
最优判别器输出表示为 $D^*(s,a)=\frac{\rho^\pi(s,a)}{\rho^\pi(s,a)+\tilde{\rho}^e(s,a)}.$

Offline IL

假设专家数据 $D_e$ 以及混合数据 $\mathcal{D}_{o}\doteq\mathcal{D}_{e}\cup\mathcal{D}_{s}$ 的状态动作分布分别为 $\tilde{\rho}^{e}>0$ 以及 $\tilde{\rho}^o>0$ 。离线学习的目标可以看作状态动作分布匹配问题，通过一个逆KL散度表达
$\operatorname*{min}_{\pi}D_{\mathrm{KL}}(\rho^{\pi}\|\tilde{\rho}^{e})=\mathbb{E}_{(s,a)\sim\rho^{\pi}}\left[\log{\frac{\rho^{\pi}(s,a)}{\tilde{\rho}^{e}(s,a)}}\right]$
为了让混合数据参与上式的处理过程，在对数项的分子分母同时添加 $\tilde{\rho}^o$ ，原问题改造为
$\max_\pi\mathbb{E}_{(s,a)\sim\rho^\pi}\big[\tilde{R}(s,a)\big]-D_{\mathrm{KL}}(\rho^\pi\|\tilde{\rho}^o)~~~~（5）$
其中 $\tilde{R}(s,a)\doteq\log\frac{\bar{\rho}^e(s,a)}{\bar{\rho}^o(s,a)}$ 。对于低维表格环境可以通过统计计算状态动作分布，而对于高维环境则可以通过训练一个判别器进行区分
$\max_d\mathbb{E}_{\tilde{\rho}^e}\big[\log d(s,a)\big]+\mathbb{E}_{\tilde{\rho}^o}\big[\log(1-d(s,a))\big]\quad(6)$
进而得到 $\tilde{R}(s,a)=\log\frac{\tilde{\rho}^{e}(s,a)}{\tilde{\rho}^{o}(s,a)}=\log\frac{d^{*}(s,a)}{1-d^{*}(s,a)}.\quad(7)$ 。
而对于KL正则，在Offline设定下无法保证策略性能。因此，算法提出状态动作的分布需要满足贝尔曼流约束(Bellman flow constraints),即
$\mathcal{Z}\doteq\left\{\rho:\rho(s,a)\geq0,f_{s}(\rho)=0,\forall s\in\mathcal{S},a\in\mathcal{A}\right\}\quad(8)\\\mathrm{where~~~}f_s(\rho)\doteq(1-\gamma)\mu(s)+\gamma\sum_{a,s^{\prime}}T(s|s^{\prime},a)\rho(s^{\prime},a)-\sum_a\rho(s,a).$
上述条件下，策略与其平稳状态-动作分布之间存在一一对应关系：如果 $\rho \in \mathcal{Z}$ ，则 $\rho$ 是策略 $\pi_{\rho}(a|s)\doteq\rho(s,a)/\sum_{a^{\prime}}\rho(s,a^{\prime})$ 下的状态动作平稳分布，而 $\pi_{\rho}$ 是唯一 $\rho$ 的平稳策略。因此，问题 (5) 可以等价地写成以下形式：
$\max_{\rho\geq0}\mathbb{E}_{(s,a)\sim\rho}\big[\tilde{R}(s,a)\big]-D_{\mathrm{KL}}(\rho\|\tilde{\rho}^{o})~~~~\text{(9)}\\\mathrm{s.t.}f_{s}(\rho)=0,\forall s\in\mathcal{S}.~~~~~\text{(10)}$
由于目标和约束分别在 $\rho$ 上是凹的和仿射的，问题 (9)-(10) 是一个凸优化问题。考虑上述问题的拉格朗日：
$L(\rho,\nu)\doteq\mathbb{E}_{s,a\sim\rho}[\tilde{R}(s,a)]-D_{\mathrm{KL}}(\rho\|\tilde{\rho}^o)+\sum_s\nu(s)f_s(\rho)$
其中 $D_{\mathrm{KL}}(\rho\|\tilde{\rho}^{o})=\sum_{s,a}\rho(s,a)\log(\rho(s,a)/\tilde{\rho}^{o}(s,a))$ ,进一步将上述等式 $L(\rho,v)$ 转化为
$L(\rho,\nu)=\sum_{s,a}\rho(s,a)\bigg(\delta_\nu(s,a)-\log\frac{\rho(s,a)}{\tilde{\rho}^o(s,a)}\bigg)+(1-\gamma)\sum_s\nu(s)\mu(s) ~~~~~（11）$
其中 $\delta_{\nu}(s,a)\doteq\tilde{R}(s,a)+\gamma\sum_{s'}\nu(s')T(s'|s,a)-\nu(s)$
对其求最优 $\rho$ , 令 $\frac{\partial L}{\partial\rho(s,a)}=0$ 得到 $\rho(s,a)=\tilde{\rho}^o(s,a)\exp\left(\delta_\nu(s,a)-1\right).\quad(13)$
将等式（13）带入等式（11）得到关于v的优化问题
$\begin{aligned}\min_{\nu}L(\nu)&\doteq\mathbb{E}_{(s,a)\sim\tilde{\rho}^o}\left[\exp\left(\delta_\nu(s,a)-1\right)\right]+(1-\gamma)\mathbb{E}_{s\sim\mu}\left[\nu(s)\right].&\text{(14)}\end{aligned}$
直接优化问题 (14) 是有问题的，因为 $\delta_\nu$ 中的期望由于双采样导致随机梯度存在偏差，且等式 (14) 中的指数项在实践中很容易导致数值不稳定。因此，文章引入凸共轭（convex conjugate）解决：
在这里插入图片描述
将x用 $\delta_\nu$ 代替得到 $\begin{aligned}\exp\left(\delta_{\nu}(s,a)-1\right)&=\max_{y(s,a)}\delta_{\nu}(s,a)y(s,a)-y(s,a)\log y(s,a)\quad(16)\end{aligned}$
等式（16）带入（14)得到一个min-max问题
$\min\limits_\nu\max\limits_yF(\nu,y)\doteq\mathbb{E}_{(s,a)\sim\tilde{\rho}^o}\big[\delta_\nu(s,a)y(s,a)-y(s,a)\cdot\log y(s,a)\Big]+(1-\gamma)\mathbb{E}_{s\sim\mu}[\nu(s)].\quad(17)$
由于 F (·, y) 在固定 y 下是凸的，并且 F (ν, ·) 在固定 ν 的凹的，极大极小定理成立，问题 (17) 实际上是一个凸凹随机鞍点 (SSP) 问题。对于固定转换 $(s, a, s^{'})$ ，将 $\delta_\nu(s, a, s')$ 表示为
$\tilde{\delta}_\nu(s,a,s')\doteq\tilde{R}(s,a)+\gamma\nu(s')-\nu(s).\quad(18)$ .
那（17）的无偏对应为：
$\min_{\nu}\max_{y}\tilde{F}(\nu,y)\doteq\mathbb{E}_{(s,a,s^{\prime})\sim\mathcal{D}_{o}}\big[\tilde{\delta}_{\nu}(s,a,s^{\prime})y(s,a)-y(s,a)\log y(s,a)\big]+(1-\gamma)\mathbb{E}_{s\sim\mathcal{D}_{o}(s_{0})}[\nu(s)].(19)$

Offline Policy Extraction

根据等式（13）可以获得最优策略与状态动作分布见存在如下关系
$\rho^*(s,a)=\tilde{\rho}^o(s,a)\exp\left(\delta_{\nu^*}(s,a)-1\right).\quad(20)$
$\pi^*(a|s)=\frac{\rho^*(s,a)}{\sum_{a^{\prime}}\rho^*(s,a^{\prime})}\propto\tilde{\rho}^o(s,a)\exp\left(\delta_{\nu^*}(s,a)-1\right).\quad\quad(21)$
当 $\frac{\partial F}{\partial y(s,a)}=0$ ,可以得到 $y^*(s,a)=\exp(\delta_{\nu^*}(s,a)-1) \quad (22)$
因此 $\pi^*(a|s)=\frac{\tilde{\rho}^o(s,a)y^*(s,a)}{z(s)}\quad(23)$

那么策略优化可以采用两种形式

Reverse KL-divergence
类似SAC中的重参数策略优化 $\min_\pi J(\pi)=\mathbb{E}_{s\sim\mathcal{D}_o}\left[D_{\text{KL}}\left(\pi(\cdot|s)\left\|\frac{q(s,\cdot)}{z(s)}\right)\right]\quad(25)\right.$ 。其中公式（7）带入公式（23）得到 $q(s,a)\doteq\tilde{\rho}^e(s,a)y^*(s,a)\left(\frac{1}{d^*(s,a)}-1\right)$ 。
Forward KL-divergence
$\begin{aligned} &\mathbb{E}_{s\sim\rho^*}\left[D_{\mathrm{KL}}(\pi^*(\cdot|s)\|\pi(\cdot|s))\right] \\ &=\mathbb{E}_{s\sim\rho^*}\left[\mathbb{E}_{a\sim\pi^*(\cdot|s)}\left[\log\pi^*(a|s)-\log\pi(a|s)\right]\right] \\ &\Leftrightarrow\mathbb{E}_{(s,a)\sim\rho^*}\begin{bmatrix}-\log\pi(a|s)\end{bmatrix} \\ &=\mathbb{E}_{(s,a)\sim\tilde{\rho}^{o}}\left[-\frac{\rho^{*}(s,a)}{\tilde{\rho}^{o}(s,a)}\log\pi(a|s)\right]& \text{(26)} \end{aligned}$
由于 $\frac{\rho^*(s,a)}{\tilde{\rho}^o(s,a)}=\exp\left(\delta_{\nu^*}(s,a)-1\right)=y^*(s,a).\quad(27)$ ，问题转化为加权模仿学习的优化问题
$\max_\pi J(\pi)=\mathbb{E}_{(s,a)\sim\mathcal{D}_o}\begin{bmatrix}y^*(s,a)\log\pi(a|s)\end{bmatrix}\quad(28)$

Aligned Discriminator

离线获得最优策略 $\pi^*$ 后，便是解决在线判别器对齐问题。对于GAIL，
$D_0(s,a)\doteq\frac{\rho^*(s,a)}{\rho^*(s,a)+\tilde{\rho}^e(s,a)}=\left(1+\frac{\tilde{\rho}^e(s,a)}{\rho^*(s,a)}\right)^{-1}(29)$
由等式（20）（22）对上式推到得到
$\begin{aligned} D_{0}(s,a)& =\left(1+\frac{\tilde{\rho}^{e}(s,a)}{\tilde{\rho}^{o}(s,a)}\cdot\frac{\tilde{\rho}^{o}(s,a)}{\rho^{*}(s,a)}\right)^{-1} \\ &=\left(1+\frac{d^*(s,a)}{1-d^*(s,a)}\cdot\frac{1}{\exp\left(\delta_{\nu^*}(s,a)-1\right)}\right)^{-1} \\ &=\left(1+\frac{d^*(s,a)}{1-d^*(s,a)}\cdot\frac1{y^*(s,a)}\right)^{-1}.\quad(30) \end{aligned}$
判别器的输出天然与离线下学习的 $d$ 以及 $y$ 挂钩，自然而然实现对齐。

Implementation with Function Approximation

在实际操作中，使用参数化模型对 $\phi, d , \nu$ 建模。使用前向策略优化(Forward KL-divergence)。在在线微调过程中，通过离线学习得到的由参数 $\phi_d$ 和 $\phi_y$ 构造的 $d$ 与 $y$ 来初始化判别器：
$D_{\phi_y,\phi_d}(s,a)=\left(1+\frac{\phi_d(s,a)}{1-\phi_d(s,a)}\cdot\frac{1}{\phi_y(s,a)}\right)^{-1}.\text{(31)}$

伪代码

在这里插入图片描述

结果

在这里插入图片描述

Offline to Online

不同数量专家数据下进行在线微调
在这里插入图片描述

后续还有AntMaze、FrankaKitchen.以及vision-based输入下的微调结果。效果都非常好。

收到求救信号

关注

24
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
O2O : OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning

ICML 2024papercode解决离线到在线过程中，判别器对齐问题。传统采用离线模仿学习结合基于GAIL的在线模仿学习，容易因为在线阶段初始化的判别器表现具有随机性，与离线获得的策略不一致。因此，本文提出的OLLIE，便是利用混合质量的数据，实现判别器与策略之间的对齐，从何防止O2O的performance drop。GAIL是一种传统在线模仿学习算法，其目标是对抗的学习一个判别器，用于区分专家数据与在线数据min⁡πmax⁡DEρπ[log⁡D(s,a)]+Eρˉe[log⁡(1−D(s,a
复制链接

扫一扫

专栏目录