算法的trick_强化学习稀疏奖励算法总结

最新推荐文章于 2024-08-11 18:21:52 发布

刘成城

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量862

点赞数 1

文章标签：算法的trick

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35152751/article/details/112516536

版权

本文总结了强化学习中遇到的稀疏奖励问题及其解决策略，包括数据利用（如好奇心驱动、Hindsight Experience Replay、Priority Experience Replay）、外部数据与信息的应用（如Reward Shaping、Imitation Learning、Curriculum Learning）以及模型改进（如Hierarchical Reinforcement Learning）。通过这些方法，可以提升模型在大状态空间和大动作空间下解决复杂问题的能力。

摘要由CSDN通过智能技术生成

最近回答了一个问题，把稀疏奖励问题的算法做了总结，能力有限，欢迎补充～

强化学习中状态空间大，在只有达到特定的状态才能给出奖励的设定下，agent很难探索到特定状态，怎么办？

稀疏奖励问题是指agent探索的过程中难以获得正奖励，导致学习缓慢甚至无法进行学习的问题，并且广泛存在于现实中，比如围棋，人们很难去设定中间每步的奖励，并且状态空间巨大，使用全局奖励会有奖励稀疏且滞后的问题。

对于稀疏奖励问题的资料首先推荐李宏毅老师关于稀疏奖励部分的讲解和国内这篇稀疏奖励综述。

深度强化学习中稀疏奖励问题研究综述 - 中国知网kns.cnki.net

我觉得目前的稀疏奖励算法可以从数据和模型入手，分别解决的问题主要有：

数据方面——如何利用好已有数据，如何使用外部数据和信息；
模型方面——如何提高模型解决大状态空间大动作空间下复杂问题的能力。

1. 如何利用好已有数据

Curiosity Driven：好奇心驱动是使用内在奖励鼓励agent探索更陌生的状态，平衡探索与利用，本质上是提高了样本的利用效率，主要分为两类，分别是基于状态计数的和基于状态预测误差的方法，前者比如这两篇文章Count-based exploration with neural density

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。