#今日论文推荐# ICML 2022 | 基于解耦梯度优化的可迁移模仿学习方法
本文是一篇对自己工作的分享,算是一篇实验和方法上自己都还比较满意的工作。发表在 ICML 2022,文章提出了一种新的 policy structure 和优化方式,用一种解耦的方式学习 policy,使得 policy 中的模块可以被用于下游的迁移任务(不同的 action space 和 action dynamics)。
想法:模仿学习通常只是模仿在 state 上出 action 的 decision 能力,我们能不能模仿一个更加 genreral 的 plan 能力?
比如在自动驾驶的时候,虽然一个司机开不同的车的时候可能采取的油门刹车力度不一样,但是其实对道路规划的能力是同样共享的。有了这种 high-level 的 plan 能力,我们就可以 transfer 到不同的 action space 的情况中去。但是传统的 policy 建模,对于 action 是 ad-hoc 的,无法训练一次迁移多次。
通过观察我们可以发现如果把 policy 拆成两个模块,他们拼起来也是一个策略,但是我们先用一个规划模块从 s 去 plan 到 s',再由一个 inverse dynamcis model(IDM)去输出此时应该采取的动作 a,这样连起来不就是一个 policy 了吗?通过 formally 的表示,我们也可以得到这样一个拆解的表示。
论文题目:Plan Your Target And Learn Your Skills: Transferable State-Only Imitation Learning via Decoupled Policy Optimization
详细解读:https://www.aminer.cn/research_report/62bbbe057cb68b460fde5f59https://www.aminer.cn/research_report/62bbbe057cb68b460fde5f59
AMiner链接:https://www.aminer.cn/?f=cs