L5. No Reward: Learning from Demonstration
Motivation
- 许多场景下,奖励难以被定义,像是:
- 自驾车
- 即使是人类設計奖励,若不够周全,机器会学错
- 机械公敌中,机器人神逻辑,把保护人类解释成监禁人类
- 人設計的奖励不一定是最好的
Imitation Learning
- 在没有 reward 的情况下,可以利用专家的行为来训练模型
Isn't it supervised learning?
- 模仿专家的行为,是一种 behavior cloning
- 存在一些问题:
- 专家的行为数据,无法覆盖所有情况 (E.g. 专家不会撞墙,机器因此无法学习到快撞墙时要如何修正)
- 机器无法从专家的行为,了解真正需要学习的部份 (E.g. 影集中主角学中文时,看到老师有手势,以为那是中文的一部份)
- 特别是当模型能力有限时,只能选择部份学习,这时就可能会学错
Inverse Reinforcement Learning
- Reinforcement Learning:
- 透过奖励,学习最佳的 Actor
- Inverse Reinforcement Learning:
- 透过专家型为,学习 reward function
- 接着再透过学习到的 reward function,训练最佳的 Actor
- 学习 Reward Function
- 让模型对专家行为给出高奖励,对机器行为给出低奖励
- 训练 Actor
- 使用上面学到的 Reward Function,用一般强化学习训练
- 当 Actor 变强之后,需要再训练调整 Reward Function,重复不断循环
IRL vs. GAN
- Reward function: 对比 GAN 中的 discriminator
- Actor: 对比 GAN 中的 Generator
参考