习题
11-1 对于模仿学习,具体的方法有哪些?
行为克隆
逆强化学习
11-2 行为克隆存在哪些问题呢?我们可以如何处理呢?
- 学习样本有限
- 无法学到特殊情况的智能体策略。
- 处理方法(聚合数据)
- 我们会希望收集更多样性的数据,而不是只收集专家所看到的观测。我们会希望能够收集专家在各种
极端的情况下,它会采取什么样的行为
- 我们会希望收集更多样性的数据,而不是只收集专家所看到的观测。我们会希望能够收集专家在各种
- 机器会完全模仿专家的行为,不管专家的行为是否有道理,就算没有道理,没有什么用的,就算这是专家本身的习惯,机器也会硬把它记下来
- 在做行为克隆的时候,训练数据跟测试数据是不匹配的。我们可以用数据集聚合的方法来缓解这个问题
11-3 逆强化学习是怎么运行的呢?
- 构建环境
- 收集专家的示范行为序列
- 智能体和环境交互, 并基于专家示范设计奖励,使得专家奖励 > 智能体奖励
- 用一般强化学习的方法进行智能体训练
- 更改奖励函数,重复 2 3 知道 智能体和专家的奖励几乎一致
11-4 逆强化学习方法与生成对抗网络(generative adversarial networks,GAN)在图像生成中有什么异曲同工之处?
两者过程基本一致:
- 生成的图就是专家的判别结果,生成器就是演员,生成器会生成很多的图并让演员与环境进行互
动,从而产生很多轨迹。这些轨迹跟环境互动的记录等价于生成对抗网络中的生成图。 - 在逆强化学习中的奖励函数就是判别器。奖励函数要给专家的实例高分,给演员的互动结果低分。
- 考虑两者的过程,在逆强化学习中,演员会想办法,从这个已经学习到的奖励函数中得到高分,然
后迭代地去循环这其实是与生成对抗网络的过程是一致的