[課程筆記] 機器學習2021(李弘毅) L33.概述增強式學習(五)

L5. No Reward: Learning from Demonstration

Motivation

  • 许多场景下,奖励难以被定义,像是:
    • 自驾车
  • 即使是人类設計奖励,若不够周全,机器会学错
    • 机械公敌中,机器人神逻辑,把保护人类解释成监禁人类
  • 人設計的奖励不一定是最好的

Imitation Learning

  •  在没有 reward 的情况下,可以利用专家的行为来训练模型

Isn't it supervised learning?

  • 模仿专家的行为,是一种 behavior cloning
  • 存在一些问题:
    • 专家的行为数据,无法覆盖所有情况 (E.g. 专家不会撞墙,机器因此无法学习到快撞墙时要如何修正)
    • 机器无法从专家的行为,了解真正需要学习的部份 (E.g. 影集中主角学中文时,看到老师有手势,以为那是中文的一部份)
    • 特别是当模型能力有限时,只能选择部份学习,这时就可能会学错

Inverse Reinforcement Learning

  • Reinforcement Learning:
    • 透过奖励,学习最佳的 Actor
  • Inverse Reinforcement Learning:
    • 透过专家型为,学习 reward function
    • 接着再透过学习到的 reward function,训练最佳的 Actor

  • 学习 Reward Function
    • 让模型对专家行为给出高奖励,对机器行为给出低奖励
  • 训练 Actor
    • 使用上面学到的 Reward Function,用一般强化学习训练
  • 当 Actor 变强之后,需要再训练调整 Reward Function,重复不断循环

IRL vs. GAN

  • Reward function: 对比 GAN 中的 discriminator
  • Actor: 对比 GAN 中的 Generator

参考

  1. ​李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值