8. 强化学习之——模仿学习

目录

课程大纲

Introduction & Behavioral Cloning

DAGGER algorithm to improve BC【就是在BC中引入了online iteration,2011】

Inverse RL & GAIL

Inverse RL

GAIL

Connection between IRL & GAIL

改进模仿学习的性能

模仿学习与强化学习结合

(1)最简单直接的结合:预训练和调整 Pretrain and Finetune【应用十分广泛】

(2)IL 结合 Off-Policy RL:算是对 Pretrain and Finetune 的改进

(3)另一种结合方式:把 IL 作为一项辅助的损失函数

一个有趣的 Case Study—— motion imitation

IL 本身存在的问题

总结


课程大纲

模仿学习介绍

行为克隆 BC 和 DAGGER 算法

逆强化学习 IRL 和 生成对抗模仿学习GAIL

改进模仿学习的性能

把模仿学习和强化学习结合

Introduction & Behavioral Cloning

从最简单的行为克隆方法开始介绍:比较简单的思想就是把策略的学习当做有监督的学习来进行,例如学习出来策略网络

这样直接把它当做一个有监督的问题来解决的话其实是有问题的:数据的分布假设相矛盾 —— 有监督学习假设数据是 IID 的,但是一个时序的决策过程采集到的数据是有关联的;而且如果模型进入到 off-course 状态(训练时没见到过的状态)时不知道怎么回来

一个可能的解决方案就是:不断添加数据,变成 online 的过程

DAGGER algorithm to improve BC【就是在BC中引入了online iteration,2011】

DAGGER 的缺点在于第三步实在是太耗费时间了,可以改进 DAGGER 吗?第三步是不是可以用其他的算法来打标签呢?

改进DAGGER:

Inverse RL & GAIL

Inverse RL

IRL 与 RL 的对比:

IRL的举例:

GAIL

类似于 IRL,GAN 学习了一个目标函数用于生成模型,GAIL 模仿了 GAN 的思想

Connection between IRL & GAIL

  • 7
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值