强化学习_11_Datawhale模仿学习

最新推荐文章于 2025-04-25 16:07:40 发布

Scc_hy

最新推荐文章于 2025-04-25 16:07:40 发布

阅读量581

点赞数

分类专栏：强化学习文章标签：机器学习深度学习人工智能强化学习

此文为笔者原创，如需转载请联系笔者:hyscc1994@foxmail.com

本文链接：https://blog.csdn.net/Scc_hy/article/details/122742798

版权

强化学习专栏收录该内容

28 篇文章

订阅专栏

本文探讨了模仿学习中的行为克隆技术及其问题，如样本不足和过度依赖专家行为，以及通过数据聚合改进。此外，介绍了逆强化学习的运行机制，包括环境构建、专家行为学习和智能体训练。最后，比较了逆强化学习与GAN在图像生成中的相似之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

习题

11-1 对于模仿学习，具体的方法有哪些？

行为克隆
逆强化学习

11-2 行为克隆存在哪些问题呢？我们可以如何处理呢？

学习样本有限

无法学到特殊情况的智能体策略。
处理方法(聚合数据)
- 我们会希望收集更多样性的数据，而不是只收集专家所看到的观测。我们会希望能够收集专家在各种
  极端的情况下，它会采取什么样的行为

机器会完全模仿专家的行为，不管专家的行为是否有道理，就算没有道理，没有什么用的，就算这是专家本身的习惯，机器也会硬把它记下来
在做行为克隆的时候，训练数据跟测试数据是不匹配的。我们可以用数据集聚合的方法来缓解这个问题

11-3 逆强化学习是怎么运行的呢？

构建环境
收集专家的示范行为序列
智能体和环境交互，并基于专家示范设计奖励，使得专家奖励 > 智能体奖励
用一般强化学习的方法进行智能体训练
更改奖励函数，重复 2 3 知道智能体和专家的奖励几乎一致

11-4 逆强化学习方法与生成对抗网络（generative adversarial networks，GAN）在图像生成中有什么异曲同工之处？

两者过程基本一致:

生成的图就是专家的判别结果，生成器就是演员，生成器会生成很多的图并让演员与环境进行互
动，从而产生很多轨迹。这些轨迹跟环境互动的记录等价于生成对抗网络中的生成图。
在逆强化学习中的奖励函数就是判别器。奖励函数要给专家的实例高分，给演员的互动结果低分。
考虑两者的过程，在逆强化学习中，演员会想办法，从这个已经学习到的奖励函数中得到高分，然
后迭代地去循环这其实是与生成对抗网络的过程是一致的

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Scc_hy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。