强化学习模型不收敛的改进方向

持续更新中…


强化学习模型不收敛可能的问题及改进方向

  • 数据太脏;
  • 状态and/or动作空间大。探索不够,采样不到足够多的正负例;
  • 环境太复杂,而经验回放库设置过小。若迫于内存原因,无法使用太大的经验回放库,可以使用优先经验回放的方法,优先存储更重要的样本;
  • 奖励设置不好。智能体难以获得正向的奖励,导致智能体觉得:与其获得负奖励不如"摆烂"。因此,我们需要适当的调整奖励,只要往好的方向前进,就应该给予适当的奖励。需要充分考虑不好的情况,并给予不同程度的惩罚;
  • 多智能体强化学习(MADRL)中,由于局部可观测特性,本身就容易不稳定。设计MADRL算法,需要注意:避免相同的(s,a)也就是状态动作对下,给予相同的奖励。若没有遵守这个原则,那么你的MADRL训练中,环境其实是在变化的,导致网络难以收敛;
  • 基础的算法网络不好。例如,你用最简单的DQN去训练智能体打网球。每个基础的DRL算法,都有自己的局限性,需要选择适当的基础算法,并结合所学环境进行适当的改动;
  • …(持续更新)

暂时想到这里了。

其他的改进方向欢迎大家在评论区补充 (*^▽^*)


  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值