Intro
利用基于次优专家数据的专家策略,通过policy constraint的形式引导智能体的在线优化,同时通过利用在线高质量数据扩展专家数据,并有监督得对专家策略进行矫正。二者交替优化实现目标策略的迭代更新
Method
上述定理说明两个问题:1)最优策略下的
J
(
π
)
J(\pi)
J(π)是受限于
J
(
π
E
)
J(\pi_E)
J(πE), 2)二者的差异被policy所bound。因此提出得IRPO通过迭代更新
π
E
\pi_E
πE以提高
J
(
π
E
)
J(\pi_E)
J(πE)以及将基于KL散度得policy constraint引入目标策略
π
\pi
π的在线优化.
伪代码第六、七行利用在线轨迹
τ
\tau
τ数据不断提升演示数据质量,进而保证专家策略的质量。同时这种demonstration boosting的形式,避免over-constraint导致策略探索不足以及primacy bias问题(过度依赖早期数据【paper】)
其中函数
f
(
τ
)
=
R
(
τ
)
=
∑
t
=
0
H
−
1
r
t
f(\tau)=R(\tau)=\sum_{t=0}^{H-1}r_{t}
f(τ)=R(τ)=∑t=0H−1rt为累计奖励