O2O:DCAC: Reducing Unnecessary Conservatism in Offline-to-online Reinforcement Learning

最新推荐文章于 2024-10-09 21:39:17 发布

收到求救信号

最新推荐文章于 2024-10-09 21:39:17 发布

阅读量749

点赞数 21

分类专栏：强化学习 O2O RL 文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/138543550

版权

强化学习同时被 2 个专栏收录

89 篇文章 1 订阅

订阅专栏

O2O RL

20 篇文章 0 订阅

订阅专栏

DAI 2023
paper

Intro

离线强化学习（Offline Reinforcement Learning, O-RL）数据集的质量对智能体性能至关重要，而高质量的数据集往往稀缺。这种稀缺性要求通过后续的环境交互来增强智能体。特别是，状态-动作分布的偏移可能会对良好初始化的政策产生潜在的不利影响，从而阻碍了离线训练的政策直接应用离线政策RL算法。当前主要的离线到在线RL方法通常基于保守主义，这一特性可能会无意中限制了渐近性能。为了应对这一挑战，我们提出了一种名为动态约束演员-评论家（Dynamically Constrained Actor-Critic, DCAC）的方法，该方法基于动态约束策略优化的数学形式，能够根据特定规则审慎地调整策略优化上的约束，从而稳定初始的在线学习阶段，并减少不必要的保守主义。

Method

给定先验策略 $\pi_{Pioro}$ ，基于约束的策略优化问题可表示为
$\max_{\theta}\mathbb{E}_{a\sim\pi_{\theta}}[Q(s,a)-\log\pi_{\theta}(a|s)]\\ s.t.\frac1{g(O_s)}D_{\mathrm{KL}}(\pi_\theta(\cdot|s)||\pi_{\mathrm{prior}}(\cdot|s))\leq\epsilon,\\ \int\pi_\theta(a|s)da=1.$
其中 $g$ 为约束系数函数。有拉格朗日乘子法得到最优解
$\pi^{*}(a|s)=\frac{\exp[\frac{g(O_{s})}{\lambda}\tilde{Q}(s,a)+\log\pi_{\mathrm{prior}}(a|s)]}{\mathcal{Z}(s)},\\\mathrm{where~}\mathcal{Z}(s)=\int\exp[\frac{g(O_{s})}{\lambda}\tilde{Q}(s,a)+\log\pi_{\mathrm{prior}}(a|s)]da.\\\tilde{Q}(s,a)=Q(s,a)-\log\pi_{\theta}(a|s).$
那么任意状态下的策略优化目标转化为
$\min_\theta D_{\mathrm{KL}}(\pi_\theta(\cdot|s)||\pi^*(\cdot|s)).$
上述KL散度等价于为
$\begin{gathered} D_{\mathrm{KL}}(\pi_{\theta}(\cdot|s)||\pi^{*}(\cdot|s))\iff \\ \frac{g(O_{s})}{\lambda}[-\int\pi_{\theta}(a|s)[Q(s,a)-\log\pi_{\theta}(a|s)]da+ \\ \frac{\lambda}{g(O_{s})}\int\pi_{\theta}(a|s)\log\frac{\pi_{\theta}(a|s)}{\pi_{\mathrm{prior}}(a|s)}da]. \end{gathered}$
对权重进行归一化后原问题转化为
$\min_{\theta}[\frac{-1}{1+\tilde{\lambda}(O_{s})}\int\pi_{\theta}(a|s)[Q(s,a)-\log\pi_{\theta}(a|s)]da\\+\frac{\tilde{\lambda}(O_{s})}{1+\tilde{\lambda}(O_{s})}\int\pi_{\theta}(a|s)\log\frac{\pi_{\theta}(a|s)}{\pi_{\mathrm{prior}}(a|s)}da].$
其中动态权重函数 $\tilde{\lambda}(O_{s})=\frac{\lambda}{g(O_{s})}$ ，动态约束规则则是确定权重值为0还是 $\frac{\tilde{\lambda}(O_{s})}{1+\tilde{\lambda}(O_{s})}$ 。DCAC采用一种基于状态值函数逼近器集成内预测一致性的约束规则，称为值预测一致性规则。采用集成价值函数 $\{V_{\zeta_{i}}(s)|i=1,2,...,K\}$ 预测，若落入区间 $[c_{\mathrm{low}}\cdot v_\psi,c_{\mathrm{high}}\cdot v_\psi]$ 则说明该状态下不需要约束，反之则需要.

在迭代步数小于 $N_{CT}$ 是集中对Q值函数进行更新，训练所采集的样本是来自离线训练的策略 $\pi_\theta$ , 鉴于离线训练的策略通常表现出值得称赞的性能，因此此类策略样本的特点是值相对较高。这些样本在重放缓冲区中的集中分布可能会导致参数值函数对不熟悉的动作进行过度乐观估计。为了减轻这种潜在的偏差，引入了一种撤销机制，旨在扩大在批评转移过程中积累的样本的分布。具体做法是加入参数策略都进行更新，并定期重置为离线策略。伪代码间Algorithm 3