强化学习模型不收敛的改进方向

最新推荐文章于 2024-08-10 11:33:11 发布

screenCui

最新推荐文章于 2024-08-10 11:33:11 发布

阅读量4k

点赞数 6

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/april_cui/article/details/132252480

版权

本文探讨了强化学习模型不收敛的常见问题，如数据质量问题、探索不足、环境复杂、奖励设置不合理等，提出优先经验回放和调整奖励策略。特别强调了在多智能体强化学习中的局部可观测性问题，以及选择和调整基础算法的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

持续更新中…

文章目录

强化学习模型不收敛可能的问题及改进方向

强化学习模型不收敛可能的问题及改进方向

数据太脏；
状态and/or动作空间大。探索不够，采样不到足够多的正负例；
环境太复杂，而经验回放库设置过小。若迫于内存原因，无法使用太大的经验回放库，可以使用优先经验回放的方法，优先存储更重要的样本；
奖励设置不好。智能体难以获得正向的奖励，导致智能体觉得：与其获得负奖励不如"摆烂"。因此，我们需要适当的调整奖励，只要往好的方向前进，就应该给予适当的奖励。需要充分考虑不好的情况，并给予不同程度的惩罚；
多智能体强化学习(MADRL)中，由于局部可观测特性，本身就容易不稳定。设计MADRL算法，需要注意：避免相同的（s,a）也就是状态动作对下，给予相同的奖励。若没有遵守这个原则，那么你的MADRL训练中，环境其实是在变化的，导致网络难以收敛；
基础的算法网络不好。例如，你用最简单的DQN去训练智能体打网球。每个基础的DRL算法，都有自己的局限性，需要选择适当的基础算法，并结合所学环境进行适当的改动；
…(持续更新)

暂时想到这里了。

其他的改进方向欢迎大家在评论区补充 (*^▽^*)

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。