[課程筆記] 機器學習2021(李弘毅) L33.概述增強式學習(五)

傷心太平洋

已于 2022-03-14 20:52:33 修改

阅读量661

点赞数

分类专栏：線上課程

于 2022-03-09 00:31:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JYLin_master/article/details/123366403

版权

深度学习机器学习人工智能

線上課程专栏收录该内容

7 篇文章 1 订阅

订阅专栏

L5. No Reward: Learning from Demonstration

Motivation

许多场景下，奖励难以被定义，像是:
- 自驾车
即使是人类設計奖励，若不够周全，机器会学错
- 机械公敌中，机器人神逻辑，把保护人类解释成监禁人类
人設計的奖励不一定是最好的

Imitation Learning

在没有 reward 的情况下，可以利用专家的行为来训练模型

Isn't it supervised learning?

模仿专家的行为，是一种 behavior cloning
存在一些问题:
- 专家的行为数据，无法覆盖所有情况 (E.g. 专家不会撞墙，机器因此无法学习到快撞墙时要如何修正)
- 机器无法从专家的行为，了解真正需要学习的部份 (E.g. 影集中主角学中文时，看到老师有手势，以为那是中文的一部份)
- 特别是当模型能力有限时，只能选择部份学习，这时就可能会学错

Inverse Reinforcement Learning

Reinforcement Learning:
- 透过奖励，学习最佳的 Actor
Inverse Reinforcement Learning:
- 透过专家型为，学习 reward function
- 接着再透过学习到的 reward function，训练最佳的 Actor

学习 Reward Function
- 让模型对专家行为给出高奖励，对机器行为给出低奖励
训练 Actor
- 使用上面学到的 Reward Function，用一般强化学习训练
当 Actor 变强之后，需要再训练调整 Reward Function，重复不断循环

IRL vs. GAN

Reward function: 对比 GAN 中的 discriminator
Actor: 对比 GAN 中的 Generator

参考

李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五)

傷心太平洋

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[課程筆記] 機器學習2021(李弘毅) L33.概述增強式學習(五)

L5. No Reward: Learning from DemonstrationMotivation许多场景下，奖励难以被定义，像是: 自驾车即使是人类設計奖励，若不够周全，机器会学错机械公敌中，机器人神逻辑，把保护人类解释成监禁人类人設計的奖励不一定是最好的Imitation Learning在没有 reward 的情况下，可以利用专家的行为来训练模型Isn't it supervised learning?模仿专家的行为，是一种 behavio.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。