O2O : MOTO: Offline to Online Fine-tuning for Model-Based Reinforcement Learning

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139318061

CoRL 2023 \ RRL 2023
paper

Intro

文章研究了在现实机器人任务中，从高维观测数据进行强化学习的离线预训练和在线微调问题。最近的离线无模型方法成功地使用在线微调来提高智能体在数据收集策略上的性能，或适应新任务。同时，基于模型的强化学习算法在样本效率和任务复杂性方面取得了显著进展，但在微调设置中仍未得到充分利用。文章认为，现有的基于模型的离线强化学习方法由于分布偏移、非动态数据和非平稳奖励等问题，在高维领域不适合离线到在线的微调。因此，提出了一种on-policy的基于模型的方法，该方法可以通过基于模型的价值扩展和策略正则化高效地重用先前数据，同时通过控制认知不确定性来防止模型过度利用。

Method

在这里插入图片描述

World Model

采用VAE based的RSSM模型建模
在这里插入图片描述
通过联合优化ELBO对模型训练
$\mathcal{L}_{p_\theta,q_\theta}^{\mathrm{model}}=\mathbb{E}_{\tau\sim\mathcal{D}}\left[\sum_t-\ln p_\theta(x_t\mid s_t)-\ln p_\theta(r_t\mid s_t)+\mathbb{D}_{KL}[q_\theta(s_t|x_t,s_{t-1},a_{t-1})||p_\theta^{i_t}(s_t|s_{t-1},a_{t-1})]\right].$
其中latent state采用离散形式。对动力学模型采用集成模型 $\{p_\theta^i(s_{t+1}|z_t)\}_{i=1}^M$ ，执行时随机采样一个模型去优化世界模型。同时，为了防止模型被过度开发使用，采用基于认知不确定的奖励正则化
$u_\theta(s_t,a_t)=\mathrm{std}(\{l_{\theta^i}(z_{t+1})\}_{i=1}^M),\\ \widehat{r}_\theta(s_t,a_t,s_{t+1})=r_\theta(s_{t+1})-\alpha u_\theta(s_t,a_t)$

Variational Model-Based Value Expansion

完成世界模型训练后，便是利用他进行价值函数的优化。这里采用的时类似 $TD(\lambda)$ 的MC估计方法。每一次训练时，采样真实状态为初始状态，利用model进行rollout。
$\hat{a}_j^t\sim\pi_\psi(a|\hat{s}_j^{t-1}),\quad\hat{s}_j^{t+1}\sim p_\theta(s|\hat{a}_j^t,\hat{s}_j^t),\quad\hat{r}_j^t\sim p_\theta(r|\hat{s}_j^t),$
然后按照一般的off-policy的算法，采用两个Q函数以及target Q函数，对价值函数建模
$V_{0}^{\pi_{\psi}}(\hat{s}_{j}^{t})=\min\{Q_{\psi^{1}}(\hat{s}_{j}^{t},\hat{a}_{j}^{t}),Q_{\psi^{2}}(\hat{s}_{j}^{t},\hat{a}_{j}^{t})\},\quad V_{K}^{\pi_{\psi}}(\hat{s}_{j}^{t})=\sum_{k=1}^{K}\gamma^{k-1}\hat{r}_{j}^{k+t}+\gamma^{K}V_{0}^{\pi_{\psi}}(\hat{s}_{j}^{t+K})$
然后通过GAE对价值函数估计
$V^{\pi_\psi}(\hat{s}_j^t)=(1-\lambda)\sum_{k=1}^{H-t-1}\lambda^{k-1}V_k^{\pi_\psi}(\hat{s}_j^t)+\lambda^{H-t-1}V_{H-t}^{\pi_\psi}(\hat{s}_j^t)$
设 $\hat{V}^{\pi_{\psi}}(s):=\lambda V^{\pi_{\psi}}(s)+(1-\lambda)V_{0}^{\pi_{\psi}}$ ，策略优化目标为
$\mathcal{L}_{\pi_{\psi}}^{\mathrm{model}}=-\frac{1}{HT}\mathbb{E}_{\tau\sim\mathcal{D}\pi_{\psi},p_{\theta}}\left[\sum_{t=0,j=1}^{H-1,T}\widehat{V}^{\pi_{\psi}}(\hat{s}_{j}^{t})\right]$
对Critic的训练由两个均方误差构成
$\mathcal{L}_{Q_{\psi^{i}}}^{\mathrm{model}}=\frac{1}{HT}\underset{\tau\sim\mathcal{D}}{\operatorname*{\mathbb{E}}}\underset{\pi_{\psi},p_{\theta}}{\operatorname*{\mathbb{E}}}\left[\sum_{t=0,j=1}^{H-1,T}(\bar{V}^{\pi_{\psi}}(\hat{s}_{j}^{t})-Q_{\psi^{i}}(\hat{s}_{j}^{t},\hat{a}_{j}^{t}))^{2}\right]\\\mathcal{L}_{Q_{\psi^{i}}}^{\mathrm{data}}=\frac1{T-1}\underset{\tau\sim\mathcal{D}}{\operatorname*{\mathbb{E}}}\underset{\pi_\psi}{\operatorname*{\mathbb{E}}}\left[\sum_{j=1}^{T-1}\left(r_{j+1}^{0}+\gamma\widehat{V}^{\pi_{\psi}}(s_{j+1}^{0})-Q_{\psi^{i}}(s_{j}^{0},a_{j}^{0})\right)^{2}\right]$
其中 $\bar{V}^{\pi_{\psi}}(\hat{s}_{j}^{t})$ 为target Q所求得。第一个损失数据为模型rollout数据，第二项针对真实环境数据。

Behaviour Prior Policy Regularization

现实的机器人学习数据集通常由狭隘的数据组成。因此，在训练的初始阶段，动力学模型可能非常不准确，代理策略可以从更强的数据正则化中受益。为了避免建模行为分布的额外复杂性，遵循类似于47的方法，该方法部署了 $f$ 形式的正则化项, 其中f可以采用阈值函数,例如对优势函数为正的样本执行行为克隆。
$\mathcal{L}_{\pi_{\psi}}^{\mathrm{reg}}=-\underset{\tau\sim\mathcal{D}}{\operatorname*{\mathbb{E}}}\left[\sum_{t=1}^T\log\pi_\psi(\boldsymbol{a}_t\mid s_t)f\left(\underbrace{\gamma^HV^{\pi_\psi}(s_{t+H})+\sum_{j=1}^H\gamma^jr_{t+j}-V^{\pi_\psi}(s_t)}_{\text{Advantage over trajectory snippet }\boldsymbol{s}_t:\boldsymbol{s}_{t+H}}\right)\right]$

在这项工作中，算法专注于具有稀疏奖励的真实机器人操作任务，并简单地根据轨迹是否在环境中实现目标来作为 $f$ 。因此，加入正则后得策略优化目标为；
$\mathcal{L}_{\pi_\psi}=\mathcal{L}_{\pi_\psi}^{\mathrm{model}}+\beta\mathcal{L}_{\pi_\psi}^{\mathrm{reg}}$