Offline : How to Leverage Diverse Demonstrations in Offline Imitation Learning-CSDN博客

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139635405

ICML 2024
paper
code

Intro

文章提出一种从混合质量数据中高效抽取有用状态动作数据用于模仿学习。算法基于一种假设，即使当前状态并非属于专家状态，但是若在该状态下采取动作导致下一状态是专家状态，那么该状态相较于随机状态更有价值。

Method

基于上述假设，算法首先训练一个判别器区分专家状态与混合非专家状态
$\max_d\mathbb{E}_{s\sim\mathcal{D}_e}\big[\log d(s)\big]+\mathbb{E}_{s\sim\mathcal{D}_u}\big[\log(1-d(s))\big]\quad(10)$
其中 $\mathcal{D}_u=\mathcal{D}_e\cup\mathcal{D}_b$ 。若状态的 $d (s)$ 大于一个阈值，则将k-step的历史数据看作是有价值的专家级数据并存储
在这里插入图片描述

直接从 $D_e$ 与 $D_s$ 混合进行BC学习容易因为采样得到的数据 ${s,a,s'\}$ 中状态均为专家状态，但是动作可能并非来自专家数据，进而造成干扰。因此，采用判别器进行状态判断，分别进行行为克隆。
$\max_{\pi}\mathbb{E}_{\mathcal{D}_{e}}[\log(\pi(a|s))]+\mathbb{E}_{\mathcal{D}_{s}}[\mathbb{1}(\mathcal{D}_{e}(s)=0)\log(\pi(a|s))]$
在实际操作中，利用重要新采样对上式改进并且将第二项的指示函数改造为狄雷克分布函数
$\begin{aligned}\max_{\pi}J(\pi)&\doteq\mathbb{E}_{\mathcal{D}_{u}}[\alpha(s,a)\log(\pi(a|s))]\\&+\mathbb{E}_{\mathcal{D}_{s}}[\beta(s,a)\log(\pi(a|s))]&\text{(13)}\end{aligned}$
其中 $\alpha(s,a)\doteq\frac{\mathcal D_e(s,a)}{\mathcal D_u(s,a)}=\frac{D^*(s,a)}{1-D^*(s,a)}$ ，其中针对状态动作对的判别器 $D (s, a)$ 训练如下
$\max_D\mathbb{E}_{\mathcal{D}_e}[\log D(s,a)]+\mathbb{E}_{\mathcal{D}_u}[\log(1-D(s,a))].\quad(15)$
第二项的 $\beta$ 为一个狄雷克分布函数
$\beta(s,a)\doteq1(d^*(s)\leq\sigma).$