多智能体强化学习-挑战

最新推荐文章于 2023-07-04 02:49:36 发布

大鱼治不了水

最新推荐文章于 2023-07-04 02:49:36 发布

阅读量715

点赞数 3

分类专栏：多智能体强化学习文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DAYUZHIBULESHUI/article/details/127629642

版权

多智能体强化学习专栏收录该内容

6 篇文章 5 订阅

订阅专栏

多智能体强化学习面临的挑战：

1. 环境不稳定性的挑战

在多智能体系统中，站在每个智能体的角度，它的环境中包含了其他智能体。在学习过程中，每个智能体的策略在不断更新，这样导致了系统中的每个智能体所处的环境都是不平稳的，这就导致了建模为马尔可夫过程中的条件被破坏，因此，独立训练每个智能体的方法在复杂的场景下可能会难以收敛。

2. 维度爆炸

如果将整个多智能体系统看作一个整体，进行集中学习，包括集中学习环境状态，所有智能体动作之间的映射，这样消除了环境不平稳的问题，但是随之带来了状态，动作空间的维度爆炸，尤其是当智能体数量增加时，导致智能体没法学到策略，扩展性太差。

多智能体强化学习算法：

面对以上问题，需要一种结合完全独立学习和完全集中学习的多智能体强化学习算法。

1.智能体之间进行合作

1）参数共享（parameter sharing）：参数共享被用在独立学习的训练过程中，缓解非平稳性的影响，这已经是很多方法的默认设定。
2）CTDE（Centralized Training with Decentralized Execution），训练时拥有上帝视角，提高学习效率，执行时各自独立决策，代表算法有MADDPG，COMA。但是，随着智能体数量增加，最优联合值分解复杂。随之从值分解数出发的算法有QMIX，VDN等。

2.智能体交互寻求更好的策略

这类算法在独立学习或者CTDE这类算法的基础上，通过更好的表示智能体之间的信息交互，从而缓解环境不平稳的问题，提高算法效率。代表算法有MAAC，DGN

大鱼治不了水

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
多智能体强化学习-挑战

多智能体强化学习的挑战以及主流的解决方法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。