ReplayBuffer: Model-augmented Prioritized Experience Replay

最新推荐文章于 2024-05-02 00:55:06 发布

收到求救信号

最新推荐文章于 2024-05-02 00:55:06 发布

阅读量1k

点赞数 7

分类专栏：强化学习 ReplayBuffer 文章标签：人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/137927208

版权

强化学习同时被 2 个专栏收录

84 篇文章 1 订阅

订阅专栏

ReplayBuffer

1 篇文章 0 订阅

订阅专栏

ICLR 2022 Poster
paper
一篇关于RelayBuffer中sample ratio的文章，可以结合到model-free以及model-based的方法中提升算法的sample efficiency。

Intro

以往基于优先回访机制的Buffer均是基于Q函数的TD-erro展开，而这所能捕获到的样本信息还是较少。作者观察到奖励模型、状态转移模型以及Q函数都是在同一个Domian中进行特征表达(输入均为 $S, A$ )，因此在TD-error的基准上，加上奖励模型以及状态转移模型的model-erro，构造一种新的采样频率计算方法MaPER。
在这里插入图片描述

Method

对于从Buffer中sample 出的N个数据 $\mathcal{B}_i=\begin{pmatrix}s_{\kappa(i)},a_{\kappa(i)},r_{\kappa(i)},s_{\kappa(i)+1}\end{pmatrix}$ 首先TD-erro采用Q bellman迭代误差, 其中使用奖励模型代替环境给出的奖励:
$L_{\mathcal{Q}_\theta}=\mathbb{E}_{(s_t,a_t,s_{t+1})\sim\mathcal{B}}\left[\|\delta_t\mathcal{Q}_\theta^{\pi_\Theta}(s_t,a_t,s_{t+1})\|_{\mathrm{MSE}}\right],\\\text{}\\\delta\mathcal{Q}_\theta^{\pi_\Theta}(s_t,a_t,s_{t+1})=\mathcal{Q}_\theta(s_t,a_t)-\left(\mathcal{R}_\theta(s_t,a_t)+\gamma\mathbb{E}_{a^{\prime}\sim\pi_\Theta(\cdot,s_{t+1})}\left[\mathcal{Q}_\theta(s_{t+1},a^{\prime})\right]\right).$

model-erro的一部分是奖励模型误差
$L_{\mathcal{R}_\theta}=\mathbb{E}_{(s_t,a_t,r_t,s_{t+1})\thicksim\mathcal{B}}\left[\|\delta_t\mathcal{R}_\theta\|_{\mathrm{MSE}}\right] \\\text{}\\\delta_t\mathcal{R}_\theta=\mathcal{R}_\theta(s_t,a_t)-r_t$
另一部分是

状态转移模型误差
$L_{\mathcal{T}\theta}=\mathbb{E}_{(s_t,a_t,r_t,s_{t+1})\thicksim\mathcal{B}}\left[\|\delta_t\mathcal{T}_\theta\|_{\mathrm{MSE}}\right] \\\text{}\\\delta_t\mathcal{T}_\theta=\mathcal{T}_\theta(s_t,a_t)-s_{t+1}$

三个误差加权融合得到
$L_{\mathcal{C}_\theta}=\xi_1L_{\mathcal{Q}_\theta}+\xi_2L_{\mathcal{R}_\theta}+\xi_3L_{\mathcal{T}_\theta}$
对模型参数的训练通过最小化联合损失函数，同时三项均方误差构造每一个被采样样本的权重为：
$\sigma_{i}=\xi_{1}\|\delta_{\kappa(i)}\mathcal{Q}_{\theta}^{\pi_{\Theta}}\|_{\mathrm{MSE}}+\xi_{2}\|\delta_{\kappa(i)}\mathcal{R}_{\theta}\|_{\mathrm{MSE}}+\xi_{3}\|\delta_{\kappa(i)}\mathcal{T}_{\theta}\|_{\mathrm{MSE}} \\\text{}\\p_i=\frac{\sigma_i^\alpha}{\sum_{k\in[|\mathcal{B}|]}\sigma_k^\alpha}, w_i=\left(\frac{1}{|\mathcal{B}|p_i}\right)^\beta$

伪代码

在这里插入图片描述

收到求救信号

关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
ReplayBuffer: Model-augmented Prioritized Experience Replay

一篇关于RelayBuffer中sample ratio的文章，可以结合到model-free以及model-based的方法中提升算法的sample efficiency。
复制链接

扫一扫