O2O:Offline–Online Actor–Critic

最新推荐文章于 2024-07-28 15:37:27 发布

收到求救信号

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量790

点赞数 13

分类专栏：强化学习 O2O RL 文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/136489165

版权

强化学习同时被 2 个专栏收录

84 篇文章 1 订阅

订阅专栏

O2O RL

20 篇文章 0 订阅

订阅专栏

IEEE TAI 2024
paper

1 Introduction

一篇offline to online 的文章，有效解决迁移过程出现的performance drop。所提出的O2AC算法首先在离线阶段添加一项BC惩罚项，用于限制策略靠近专家策略；而在在线微调阶段，通过动态调整BC的权重，缓解performance drop。

2 Method

2.1 offline

离线阶段，采用BC结合确定性策略优化方法。最大化下列损失函数：
$J_{\mathrm{offine}}(\boldsymbol{\theta})=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))-\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^2\right]$
其中， $\zeta$ 用于平衡BC以及一般policy iteration，其数值如下：
$\zeta=\frac{\alpha}{\frac1m\sum_{(\boldsymbol{s}_i,\boldsymbol{a}_i)\in\overline{\mathcal{B}}}|Q(\boldsymbol{s}_i,\boldsymbol{a}_i)|}$
其中 $\overline{\mathcal{B}}$ 表示从Buffer中采样地mini-batch, size为m

2.2 online

在线微调阶段，对确定性策略优化的损失函数表示如下
$J_{\mathrm{online}}(\boldsymbol{\theta})=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))-\lambda\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^2\right]$
相较于offline，损失函数增加对BC权重因子 $\lambda$ 。该数值是动态减少的，实验设置为每5k steps, 减少10%。对Q价值的更新则是类似于TD3，使用两个target网络以及延时更新。
$\begin{aligned}L(\phi)&=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\left(\bar{y}-Q_{\boldsymbol{\phi}}(\boldsymbol{s},\boldsymbol{a})\right)^2\right]\\\\\text{where }\bar{y}&=r+\min_{i=1,2}Q_{\bar{\boldsymbol{\phi}_i}}(\boldsymbol{s},'\boldsymbol{a}'\sim\pi_{\bar{\boldsymbol{\theta}}}).\end{aligned}$

伪代码如下：
在这里插入图片描述

Summary

有个疑问，online阶段对策略进行更新时，采样的数据(s,a)是来自replaybuffer $\mathcal{B}$ 。 $\mathcal{B}$ 包含在线阶段真实交互数据以及离线数据。如果(s,a)是OOD或者质量差数据，那么此时BC项应该尽可能地不要发挥作用。简单的调整 $\lambda$ 恐怕效果不够。可以探索添在BC项再加一个指示函数自适应地判断，“异常数据”直接截断为0.

收到求救信号

关注

13
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
O2O:Offline–Online Actor–Critic

一篇offline to online 的文章，有效解决迁移过程出现的performance drop。所提出的O2AC算法首先在离线阶段添加一项BC惩罚项，用于限制策略靠近专家策略；而在在线微调阶段，通过动态调整BC的权重，缓解performance drop。如果(s,a)是OOD或者质量差数据，那么此时BC项应该尽可能地不要发挥作用。有个疑问，online阶段对策略进行更新时，采样的数据(s,a)是来自replaybuffer。在线微调阶段，对确定性策略优化的损失函数表示如下。
复制链接

扫一扫

专栏目录