【笔记2-6】李宏毅深度强化学习笔记（六）Imitation Learning

最新推荐文章于 2024-05-22 18:04:37 发布

jessie_weiqing

最新推荐文章于 2024-05-22 18:04:37 发布

阅读量3.5k

点赞数 5

分类专栏：笔记李宏毅深度强化学习笔记文章标签： reinforce learning 强化学习李宏毅 imitation learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cindy_1102/article/details/88051963

版权

李宏毅深度强化学习- Imitation Learning

为什么要模仿学习 Imitation Learning
行为克隆
Inverse Reinforcement Learning (IRL)

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

李宏毅深度强化学习笔记（一）Outline
李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
李宏毅深度强化学习笔记（三）Q-Learning
李宏毅深度强化学习笔记（四）Actor-Critic
李宏毅深度强化学习笔记（五）Sparse Reward
李宏毅深度强化学习课件

为什么要模仿学习 Imitation Learning

(也称为 learning by demonstration, apprenticeship learning)
在某些情况下:

机器也可以和环境进行互动，但是不能明显的得到reward
在某些任务中很难定义reward
人为涉及的奖励可能会得到不受控制的行为

因此需要 imitation learning: 让一个专家来示范应该如何解决问题，而机器则试着去模仿专家

行为克隆

这个方法可以看做是一个监督学习，在这个方法中，actor需要学习在某些特定的state下尽可能像专家一样行动

然而，专家只能进行有限的采样，因此需要引入Dataset Aggregation（让专家处于机器所处的state中）

Dataset Aggregation:

通过行为克隆得到一个 actor

最低0.47元/天解锁文章

关注

5
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
【笔记2-6】李宏毅深度强化学习笔记（六）Imitation Learning

李宏毅深度强化学习- Imitation LearningWhy Imitation LearningBehaviour CloningInverse Reinforcement Learning (IRL)李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071李宏毅深度强化学习笔记（一）Outline李宏毅深度强化学习笔记（二）Pro...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。