#今日论文推荐# ICML 2022 | 基于解耦梯度优化的可迁移模仿学习方法

最新推荐文章于 2022-10-24 13:11:27 发布

wwwsxn

最新推荐文章于 2022-10-24 13:11:27 发布

阅读量148

点赞数

分类专栏：深度学习文章标签：大数据

原文链接：https://www.aminer.cn/research_report/62bbbe057cb68b460fde5f59

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# ICML 2022 | 基于解耦梯度优化的可迁移模仿学习方法

本文是一篇对自己工作的分享，算是一篇实验和方法上自己都还比较满意的工作。发表在 ICML 2022，文章提出了一种新的 policy structure 和优化方式，用一种解耦的方式学习 policy，使得 policy 中的模块可以被用于下游的迁移任务（不同的 action space 和 action dynamics）。

想法：模仿学习通常只是模仿在 state 上出 action 的 decision 能力，我们能不能模仿一个更加 genreral 的 plan 能力？
比如在自动驾驶的时候，虽然一个司机开不同的车的时候可能采取的油门刹车力度不一样，但是其实对道路规划的能力是同样共享的。有了这种 high-level 的 plan 能力，我们就可以 transfer 到不同的 action space 的情况中去。但是传统的 policy 建模，对于 action 是 ad-hoc 的，无法训练一次迁移多次。

通过观察我们可以发现如果把 policy 拆成两个模块，他们拼起来也是一个策略，但是我们先用一个规划模块从 s 去 plan 到 s'，再由一个 inverse dynamcis model（IDM）去输出此时应该采取的动作 a，这样连起来不就是一个 policy 了吗？通过 formally 的表示，我们也可以得到这样一个拆解的表示。

论文题目：Plan Your Target And Learn Your Skills: Transferable State-Only Imitation Learning via Decoupled Policy Optimization
详细解读：https://www.aminer.cn/research_report/62bbbe057cb68b460fde5f59https://www.aminer.cn/research_report/62bbbe057cb68b460fde5f59
AMiner链接：https://www.aminer.cn/?f=cs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐# ICML 2022 | 基于解耦梯度优化的可迁移模仿学习方法

本文提出了一种新的 policy structure 和优化方式，用一种解耦的方式学习 policy，使得 policy 中的模块可以被用于下游的迁移任务。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。