Intro
文章研究异质数据上实现离线强化学习。该背景下的问题中,智能体的离线数据包含两种:1)带动作的标签数据 2)无动作标签数据。本文的方法采用半监督的方法为无标签的状态数据生成动作标签,这样就可以结合一般Offline RL算法。
Method
利用k-step的历史数据 s min ( 0 , t − k ) , … , s t , s t + 1 s_{\min(0,t-k)},\ldots,s_{t},s_{t+1} smin(0,t−k),…,st,st+1预测当前时刻的动作 a t a_t at,然后通过监督学习方法优化IDM模型。其中动作采样自高斯分布: a t ∼ N ( μ θ ( s t , − k ) , Σ θ ( s t , − k ) ) . a_t\sim\mathcal{N}\big(\mu_\theta(\mathbf{s}_{t,-k}),\Sigma_\theta(\mathbf{s}_{t,-k})\big). at∼N(μθ(st,−k),Σθ(st,−k)).
完成IDM的训练后,便是对无标签数据进行标签填充,即将状态输入重新预测动作。文章在这里采用预测分布均值作为结果。预测结果将连同状态并结合标签数据,采用离线RL方法得到策略