算法的trick_强化学习稀疏奖励算法总结

本文总结了强化学习中遇到的稀疏奖励问题及其解决策略,包括数据利用(如好奇心驱动、Hindsight Experience Replay、Priority Experience Replay)、外部数据与信息的应用(如Reward Shaping、Imitation Learning、Curriculum Learning)以及模型改进(如Hierarchical Reinforcement Learning)。通过这些方法,可以提升模型在大状态空间和大动作空间下解决复杂问题的能力。
摘要由CSDN通过智能技术生成

3bc73d7805181042b57a1af919adb540.png

最近回答了一个问题,把稀疏奖励问题的算法做了总结,能力有限,欢迎补充~

强化学习中状态空间大,在只有达到特定的状态才能给出奖励的设定下,agent很难探索到特定状态,怎么办?

稀疏奖励问题是指agent探索的过程中难以获得正奖励,导致学习缓慢甚至无法进行学习的问题,并且广泛存在于现实中,比如围棋,人们很难去设定中间每步的奖励,并且状态空间巨大,使用全局奖励会有奖励稀疏且滞后的问题。

对于稀疏奖励问题的资料首先推荐李宏毅老师关于稀疏奖励部分的讲解和国内这篇稀疏奖励综述。

深度强化学习中稀疏奖励问题研究综述 - 中国知网​kns.cnki.net

我觉得目前的稀疏奖励算法可以从数据和模型入手,分别解决的问题主要有:

  • 数据方面——如何利用好已有数据,如何使用外部数据和信息;
  • 模型方面——如何提高模型解决大状态空间大动作空间下复杂问题的能力。

1. 如何利用好已有数据

Curiosity Driven:好奇心驱动是使用内在奖励鼓励agent探索更陌生的状态,平衡探索与利用,本质上是提高了样本的利用效率,主要分为两类,分别是基于状态计数的和基于状态预测误差的方法,前者比如这两篇文章Count-based exploration with neural density

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值