题目:Model-Based Reinforcement Learning With Isolated Imaginations
基于模型的强化学习与独立想象力
作者:Minting Pan; Xiangming Zhu; Yitao Zheng; Yunbo Wang; Xiaokang Yang
摘要
在基于视觉的交互系统中,世界模型学习行动的后果。然而,在实际场景中,如自动驾驶,存在不可控制的动态,这些动态独立于或与行动信号稀疏相关,这使得学习有效的世界模型变得具有挑战性。为了解决这个问题,我们提出了Iso-Dream++,这是一种基于模型的强化学习方法,具有两个主要贡献。首先,我们优化了逆动力学,鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次,我们基于解耦的潜在想象进行策略优化,我们将不可控制的状态滚动到未来,并将其与当前可控制的状态自适应地关联起来。这使得长期的视动控制任务能够从野外隔离混合动态源中受益,例如,能够预测其他车辆运动的自动驾驶汽车,从而避免潜在风险。在我们之前的工作(Pan等人,2022年)的基础上,我们进一步考虑了可控制和不可控制状态之间的稀疏依赖性,解决了状态解耦的训练崩溃问题,并在迁移学习设置中验证了我