O2O:Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139316537

3rd Offline Reinforcement Learning Workshop at Neural Information Processing Systems, 2022.
paper

Intro

通过对TD3-BC 中的BC正则化项系数进行调整，使得算法在实现O2O时有更好的表现。

Method

Offline

对于离线阶段的TD3+BC，策略优化目标为：
$\pi=\arg\max_{\pi}\mathbb{E}_{(s,a)\sim D}\Big[\underbrace{Q(s,\pi(s))}_{RL}-\alpha\underbrace{(\pi(s)-a)^2}_{BC}\Big].$
其中当数据为次优时，BC项容易导致策略优化崩溃。文章指出 $\alpha$ 过低不能防止过估计问题存在，而较高的值会导致策略泛化能力差，使得策略表现仅限于数据集。本文提出方法，先使用 $\alpha$ 进行训练，然后对该值进行缩放 $\alpha' = \frac{\alpha}{\lambda}, \lambda\geq1$

Online Fine-tuning

在现阶段一种选择是简单地删除离线学习期间施加的 BC 约束。但由于从离线到在线设置的突然偏移，这通常会导致初始策略出现performance drop。因此为了提高稳定性和性能的方法，设计了一种过渡到在线设置的替代方法。算法初始化一个新的重放缓冲区，并根据从环境中收集的额外交互训练评论家和策略。基于衰减率 $k\alpha$ 的指数衰减，降低了BC项的影响:
$\kappa_\alpha=\exp\big[\frac{1}{N}\log\big(\frac{\alpha_{end}}{\alpha_{start}}\big)\big].$

算法基于REDQ+AdaptiveBC，对于每一个Q函数
$\nabla_{\theta_i}\frac{1}{|B|}\sum_{(s,a,r,s')\in B}\left(Q_{\theta_i}-r-\gamma\min_{i=1,2}Q_{\theta_i}(s',a')\right)^2, ~~~(3)$
其中策略为确定性策略，加上噪声提升探索能力 $a^{\prime}=\mathrm{clip}(\pi_{\phi^{\prime}}(s^{\prime})+\mathrm{noise,-0.5,0.5)} ~~noise \sim N(0,\epsilon)$ 。策略优化如下
$\nabla_\phi\frac{1}{|B|}\sum_{(s,a)\in B}Q_{\theta_1}\big(s,\pi_\phi(s)\big)-\alpha\big(\pi_\phi(s)-a\big)^2.~~~(4)$