Offline RL: A Policy-Guided Imitation Approach for Offline Reinforcement Learning

最新推荐文章于 2024-07-25 23:26:35 发布

收到求救信号

最新推荐文章于 2024-07-25 23:26:35 发布

阅读量775

点赞数 18

分类专栏：强化学习离线强化学习模仿学习文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/136882704

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

模仿学习

12 篇文章 0 订阅

订阅专栏

该研究提出了一种新的离线RL方法，通过分解代理为向导策略和执行策略，避免了动作值函数的缺点，同时增强稳定性。通过学习价值函数并结合行为cloning正则化，改善了策略泛化。执行策略采用监督学习训练，并在评估阶段考虑向导策略的指导。

摘要由CSDN通过智能技术生成

NIPS 2022
paper

Intro

针对离线 RL 问题，提出将代理分解为一个向导策略(guide-policy): $g (s^{'} ∣ s)$ 和一个执行策略(execute-policy) : $\pi(a| s, g(s))$ ，前者建议向给定的当前状态转换的下一个状态的最高值，后者产生可能一步就将代理转换到给定状态的操作。通过这种分解，避免了使用动作值函数的方法的缺陷，同时保持了模拟学习方法的稳定性。

Method

Learning the Guide-Policy

为了让向导策略能够正确引导，首先需要利用离线数据中的(s,s’,r)学习一个价值函数。由于缺乏动作，自然有利于规避ODD导致的过估计。
$\min_{\phi}\mathbb{E}_{(s,r,s^{\prime})\sim\mathcal{D}}\left[1\Big(1+\frac{r+\gamma V_{\phi^{\prime}}(s^{\prime})-V_{\phi}(s)}{2\tau}>0\Big)\Big(1+\frac{r+\gamma V_{\phi^{\prime}}(s^{\prime})-V_{\phi}(s)}{2\tau}\Big)^{2}+\frac{V_{\phi}(s)}{\tau}\right]$
上述公式的 $\tau$ 实现最优化V以及减少逼近误差的trade-off。较小的 $\tau$ 向更高V 驱动，同时引入更大的近似误差，反之亦然。

得到价值函数，简单最大化从而得到指导策略容易出现错误状态泛化。因此本文添加一项基于BC的正则化项： $\max_{\omega}\mathbb{E}_{s\sim\mathcal{D},s^{\prime}\sim g_{\omega}(s)}\Big[V_{\phi}(s^{\prime})+\alpha\log g_{\mu}(s^{\prime}|s)\Big]$

其中 $g_\mu$ 是利用离线数据得到的。除此外，还提供另一种行为隐式正则（AWR算法）的策略优化方法：
$\max_{\omega}\mathbb{E}_{(s,s')\sim\mathcal{D}}\Bigg[\exp\Big(\frac{r+\gamma V_{\phi'}(s')-V_{\phi}(s)}{\alpha}\Big)\log g_{\omega}(s'|s)\Bigg]$

Learning the Execute-Policy: Training and Evaluation

得到向导策略后，利用监督学习的方法学习执行策略：
$\max_\theta\mathbb{E}_{(s,a,s')\in\mathcal{D}}\Big[\log\pi_\theta(a|s,s')\Big]$
而在以后的evaluation过程中策略表示如下： $a=\arg\max_a\pi_\theta(a|s,g_\omega(s))$