Offline: Overcoming Model Bias for Robust Offline Deep Reinforcement Learning

最新推荐文章于 2024-07-25 16:05:31 发布

收到求救信号

最新推荐文章于 2024-07-25 16:05:31 发布

阅读量616

点赞数 20

分类专栏：离线强化学习强化学习文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/138728845

版权

强化学习同时被 2 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

EAAI 2023
paper

Intro

model-free的离线强化学习由于价值函数估计问题存在训练的稳定性以及鲁棒性较低。本文提出基于模型的方法，同构构建稳定的动力学模型帮助策略的稳定训练。

method

本文基于模型的方法，所构造的转移模型输入状态动作，输出的状态差异 $\Delta s=s_{t+1}-s_{t}$ 而非直接预测下一状态值。
$L(\phi)=\sum_{t}\|f_{\phi}(s_{t},a_{t})-\frac{(s_{t+1}-s_{t})-\mu^{\Delta\mathbf{s}}}{\sigma^{\Delta\mathbf{s}}}\|_{2}$

文章假设转移误差符合分布 $(s'-\hat{s'})\sim\mathcal{N}(0,-\log p_{e,\beta}(s,a))$ 。最小化模型误差的等价于如下
$\begin{aligned}&\quad\underset{\theta}{\operatorname*{argmin}}\mathbb{E}[(s^{\prime}-\hat{s^{\prime}})^{2}]\\&=\quad\underset{\theta}{\operatorname*{argmin}}\mathbb{E}[-\log p_{e,\beta}(\hat{s},\hat{a})]\\&=\quad\underset{\theta}{\operatorname*{argmax}}\mathbb{E}[p_{e,\beta}(\hat{s},\hat{a})]\\&=\quad\underset{\theta}{\operatorname*{argmax}}\quad\mathbb{E}[\mu_{\beta}^{e}(\hat{s})\beta(\hat{a}|\hat{s})]\end{aligned}$

进一步，文章利用一个VAE近似 $\mu_{\beta}^{e}(\hat{s})\beta(\hat{a}|\hat{s})$ ，通过最小化ELBO实现参数优化
$L(\omega)=\mathbb{E}_{q_{\omega}(z|s,a)}[-\log p_{\omega}(s,a|z)]+D_{KL}(q_{\omega}(z|s,a)||p(z))\\p(z)\sim\mathcal{N}(0,1)$
然后通过最小化累计负对数似然，利用该模型限制策略以产生让模型偏差最小化的样本
$\mathbb{E}[P]=\sum_t\mathbb{E}_{q_\omega(z|s,a),(s,a)\sim\pi,f}[-\log p_\omega(s,a|z)]$

同时，基于离线数据构建集成模型预测奖励函数，使得确定性策略下的模型预测结果为保守的估计
$\mathbb{E}[R]=\eta\min_k\left\{\sum_t\gamma^tr(s_t,\pi_\theta(s_t),f_k(s_t,\pi_\theta(s_t)))\right\}\\+(1-\eta)\frac1K\sum_k\left[\sum_t\gamma^tr(s_t,\pi_\theta(s_t),f_k(s_t,\pi_\theta(s_t)))\right]$
奖励模型与状态转移模型联合作为正则化项优化策略: $L(\theta)=-\lambda\mathbb{E}[R]+(1-\lambda)\mathbb{E}[P]$