Offline RL：RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning

最新推荐文章于 2024-07-28 15:37:27 发布

收到求救信号

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量619

点赞数 13

分类专栏：强化学习离线强化学习 Model-based 文章标签：人工智能算法机器学习

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139352805

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

Model-based

12 篇文章 0 订阅

订阅专栏

NIPS 2022
paper
code

Intro

Robust Adversarial Model-Based Offline RL (RAMBO): 一种新的基于模型的离线强化学习方法。
将问题表述为与对抗性环境模型的两玩家零和博弈。模型被训练以最小化价值函数，同时仍然准确预测数据集中的转换，迫使策略在数据集未覆盖的区域采取保守行动。通过交替优化策略和对抗性地优化模型来近似解决两玩家博弈。

Method

鲁棒对抗强化学习(RARL)可以看作2-players的零和游戏，其公式化表达为 $\pi=\arg\max_{\pi\in\Pi}\min_{\bar{\pi}\in\bar{\Pi}}V_M^{\pi,\bar{\pi}}$ 。本文同样基于RARL的架构，但是将对手策略 $\bar{\pi}$ 设定为从离线数据中学习的环境动力学习模型 $T(\cdot|s,a)$
问题形式化为
在这里插入图片描述
$\widehat{T}(s',r|s,a)$ 表示优化得到的动力学习模型。该问题受限于数据集D，对于D之外的数据没有限制。而CPPO则给出一个理论保证问题 1 输出一个策略 $\pi$ ，有较高概率与数据集覆盖的状态-动作分布所得到的任意策略 $\pi^*$ 一样好,二者策略间的差距存在一个upper bound。
在这里插入图片描述

此外，问题 1 定义的集合中，最坏模型下的值函数是真实环境中价值函数的下界，如命题 1 所示

那门最大化这个下界便是实现在真实MDP的价值优化。为了问题1，提出RAMBO算法。

RAMBO

Model Gradient

问题1对模型的优化是最小化函数 $V_{\hat{T}}$ 。因此对价值函数求导得到
$\nabla_\phi V_\phi^\pi=\mathbb{E}_{s\sim d_\phi^\pi,a\sim\pi,(s^{\prime},r)\sim\widehat{T}_\phi}\left[(r+\gamma V_\phi^\pi(s^{\prime})-Q_\phi^\pi(s,a))\cdot\nabla_\phi\log\widehat{T}_\phi(s^{\prime},r|s,a)\right]$
采用actor-critic方法对策略与Q进行优化。因此，此处的Q函数同时用于策略以及模型的优化。

Adversarial Model Training

对于问题1 中还有一个对于模型的约束项，采用拉格朗日方法得到如下优化
$\max\limits_{\lambda\geq0}\min\limits_{\widehat{T}_{\phi}}\Big(L(\hat{T},\lambda):=V_{\phi}^{\pi}+\lambda\big(\mathbb{E}_{\mathcal{D}}\big[\mathrm{TV}(\widehat{T}_{\mathbf{MLE}}(\cdot|s,a),\widehat{T}_{\phi}(\cdot|s,a))^{2}\big]-\xi\big)\Big),$
实验发现固定乘子参数值的效果更好，因此将上式转化为
$\min_{\widehat{T}_{\phi}}\Big(\lambda V_{\phi}^{\pi}+\mathbb{E}_{\mathcal{D}}\Big[\mathrm{TV}(\widehat{T}_{\mathrm{MLE}}(\cdot|s,a),\widehat{T}_{\phi}(\cdot|s,a))^{2}]\Big).$
为了方便计算，直接用MLE优化模型得到
$\mathcal{L}_\phi=\lambda V_\phi^\pi-\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\big[\log\widehat{T}_\phi(s',r|s,a)\big].$
其中对 $V$ 的梯度计算采用上一节的Model Gradient，而所采用的样本则需要模型与当前策略产生，因此采用MBPO的集成模型构建环境模型，进行k-steps 的rollout产生训练数据。