Offline RL : Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning

收到求救信号

已于 2024-06-06 10:48:04 修改

阅读量865

点赞数 9

分类专栏：强化学习离线强化学习 Model-free 文章标签：机器学习人工智能

于 2024-06-06 10:32:15 首次发布

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139482408

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

Model-free

15 篇文章 0 订阅

订阅专栏

ICML 2021
paper
code
利用Q的方差作为权重估计，降低OOD数据的影响程度。

Intro

在离线强化学习中，目标是在不需要探索或交互的情况下，从静态数据集中学习。现有的基于Q学习和演员-评论家算法在处理分布外（OOD）行为或状态时存在困难，这可能导致价值估计中的重大错误，从而破坏训练的稳定性。

为了解决这个问题，提出了一种名为不确定性加权演员-评论家（UWAC）的新算法。UWAC背后的关键是检测到OOD行为-状态对，相应地减少它们在训练目标中的影响。这是通过一种实用的基于dropout的不确定性估计方法实现的，防止 Q 函数对OOD数据（高不确定性）过于乐观的学习。与现有的强化学习算法相比，这种方法几乎没有额外的开销。

Method

Uncertainty estimation through dropout

采用Monte-Carlo Dropout来计算Q值不确定性: 即在训练时对每个隐藏层网络输出加入Dropout，测试时也执行Dropout，然后对同一个数据连续T次预测，然后估计方差
$\begin{aligned}Var[Q(s,a)]\approx\sigma^2+\frac1T\sum_{t=1}^T\hat{Q}_t(s,a)^\top\hat{Q}_t(s,a)-E[\hat{Q}(s,a)]^\top E[\hat{Q}(s,a)]\end{aligned}$

其中Dropout源代码为

def forward(self, input, return_preactivations=False):
        h = input
        for i, fc in enumerate(self.fcs):
            h = fc(h)
            if self.layer_norm and i < len(self.fcs) - 1:
                h = self.layer_norms[i](h)
            h = self.hidden_activation(h)
            h = F.dropout(h,p=self.drop_rate)
        preactivation = self.last_fc(h)
        output = self.output_activation(preactivation)
        if return_preactivations:
            return output, preactivation
        else:
            return output

基于不确定性的策略表示为
$\begin{gathered} \pi^{\prime}(a|s) =\frac\beta{Var\left[Q_0^{\pi^{\prime}}(s,a)\right]}\pi(a|s)/Z(s); \\ Z(s) =\int_{a}\frac{\beta}{Var\left[Q_{0}^{\pi^{\prime}}(s,a)\right]}\pi(a|s)da \end{gathered}$

Uncertainty Weighted Actor-Critic

加权后对Q函数进行如下优化
$\begin{aligned} &\mathcal{L}(Q_{\theta}) = \mathbb{E}_{(s^{\prime}|s,a)\sim\mathcal{D}}\mathbb{E}_{a^{\prime}\sim\pi^{\prime}(\cdot|s^{\prime})}\left[Err(s,a,s^{\prime},a^{\prime})^{2}\right] \\ &= \mathbb{E}_{(s^{\prime}|s,a)\sim\mathcal{D}}\mathbb{E}_{a^{\prime}\sim\pi(\cdot|s^{\prime})}\left[\frac{\beta}{Var\left[Q_{\theta^{\prime}}(s^{\prime},a^{\prime})\right]}Err(s,a,s^{\prime},a^{\prime})^{2}\right] \\ &Err(s,a,s',a')=Q_{\theta}(s,a)-\left(R(s,a)+\gamma Q_{\theta'}(s',a')\right). \end{aligned}$
其中归一化因子被 $\beta$ 吸收。同样，对策略的优化为
$\begin{aligned} \mathcal{L}(\pi)& =-\mathbb{E}_{a\sim\pi^{\prime}(\cdot|s)}\left[Q_\theta(s,a)\right] \\ &=-\mathbb{E}_{a\sim\pi(\cdot|s)}\left[\frac{\beta}{Var\left[Q_{\theta}(s,a)\right]}Q_{\theta}(s,a)\right] \end{aligned}$

伪代码

在这里插入图片描述

结果

在这里插入图片描述

收到求救信号

关注

9
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Offline RL : Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning

ICML 2021利用Q的方差作为权重估计，降低OOD数据的影响程度。
复制链接

扫一扫

专栏目录