持续更新中…
文章目录
强化学习模型不收敛可能的问题及改进方向
- 数据太脏;
- 状态and/or动作空间大。探索不够,采样不到足够多的正负例;
- 环境太复杂,而经验回放库设置过小。若迫于内存原因,无法使用太大的经验回放库,可以使用优先经验回放的方法,优先存储更重要的样本;
- 奖励设置不好。智能体难以获得正向的奖励,导致智能体觉得:与其获得负奖励不如"摆烂"。因此,我们需要适当的调整奖励,只要往好的方向前进,就应该给予适当的奖励。需要充分考虑不好的情况,并给予不同程度的惩罚;
- 多智能体强化学习(MADRL)中,由于局部可观测特性,本身就容易不稳定。设计MADRL算法,需要注意:避免相同的(s,a)也就是状态动作对下,给予相同的奖励。若没有遵守这个原则,那么你的MADRL训练中,环境其实是在变化的,导致网络难以收敛;
- 基础的算法网络不好。例如,你用最简单的DQN去训练智能体打网球。每个基础的DRL算法,都有自己的局限性,需要选择适当的基础算法,并结合所学环境进行适当的改动;
- …(持续更新)
暂时想到这里了。
其他的改进方向欢迎大家在评论区补充 (*^▽^*)