强化学习_11_Datawhale模仿学习

本文探讨了模仿学习中的行为克隆技术及其问题,如样本不足和过度依赖专家行为,以及通过数据聚合改进。此外,介绍了逆强化学习的运行机制,包括环境构建、专家行为学习和智能体训练。最后,比较了逆强化学习与GAN在图像生成中的相似之处。
摘要由CSDN通过智能技术生成

习题

11-1 对于模仿学习,具体的方法有哪些?

行为克隆
逆强化学习

11-2 行为克隆存在哪些问题呢?我们可以如何处理呢?

  1. 学习样本有限
  • 无法学到特殊情况的智能体策略。
  • 处理方法(聚合数据)
    • 我们会希望收集更多样性的数据,而不是只收集专家所看到的观测。我们会希望能够收集专家在各种
      极端的情况下,它会采取什么样的行为
  1. 机器会完全模仿专家的行为,不管专家的行为是否有道理,就算没有道理,没有什么用的,就算这是专家本身的习惯,机器也会硬把它记下来
  2. 在做行为克隆的时候,训练数据跟测试数据是不匹配的。我们可以用数据集聚合的方法来缓解这个问题

11-3 逆强化学习是怎么运行的呢?

  1. 构建环境
  2. 收集专家的示范行为序列
  3. 智能体和环境交互, 并基于专家示范设计奖励,使得专家奖励 > 智能体奖励
  4. 用一般强化学习的方法进行智能体训练
  5. 更改奖励函数,重复 2 3 知道 智能体和专家的奖励几乎一致

11-4 逆强化学习方法与生成对抗网络(generative adversarial networks,GAN)在图像生成中有什么异曲同工之处?

两者过程基本一致:

  1. 生成的图就是专家的判别结果,生成器就是演员,生成器会生成很多的图并让演员与环境进行互
    动,从而产生很多轨迹。这些轨迹跟环境互动的记录等价于生成对抗网络中的生成图。
  2. 在逆强化学习中的奖励函数就是判别器。奖励函数要给专家的实例高分,给演员的互动结果低分。
  3. 考虑两者的过程,在逆强化学习中,演员会想办法,从这个已经学习到的奖励函数中得到高分,然
    后迭代地去循环这其实是与生成对抗网络的过程是一致的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Scc_hy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值