#今日论文推荐# ICML 2022 | 基于解耦梯度优化的可迁移模仿学习方法

#今日论文推荐# ICML 2022 | 基于解耦梯度优化的可迁移模仿学习方法

本文是一篇对自己工作的分享,算是一篇实验和方法上自己都还比较满意的工作。发表在 ICML 2022,文章提出了一种新的 policy structure 和优化方式,用一种解耦的方式学习 policy,使得 policy 中的模块可以被用于下游的迁移任务(不同的 action space 和 action dynamics)。

想法:模仿学习通常只是模仿在 state 上出 action 的 decision 能力,我们能不能模仿一个更加 genreral 的 plan 能力? 
比如在自动驾驶的时候,虽然一个司机开不同的车的时候可能采取的油门刹车力度不一样,但是其实对道路规划的能力是同样共享的。有了这种 high-level 的 plan 能力,我们就可以 transfer 到不同的 action space 的情况中去。但是传统的 policy 建模,对于 action 是 ad-hoc 的,无法训练一次迁移多次。

通过观察我们可以发现如果把 policy 拆成两个模块,他们拼起来也是一个策略,但是我们先用一个规划模块从 s 去 plan 到 s',再由一个 inverse dynamcis model(IDM)去输出此时应该采取的动作 a,这样连起来不就是一个 policy 了吗?通过 formally 的表示,我们也可以得到这样一个拆解的表示。

论文题目:Plan Your Target And Learn Your Skills: Transferable State-Only Imitation Learning via Decoupled Policy Optimization
详细解读:https://www.aminer.cn/research_report/62bbbe057cb68b460fde5f59icon-default.png?t=M5H6https://www.aminer.cn/research_report/62bbbe057cb68b460fde5f59
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值