（二）多智能体强化学习

最新推荐文章于 2025-03-23 18:32:30 发布

追风者...

最新推荐文章于 2025-03-23 18:32:30 发布

阅读量1.1k

点赞数 7

分类专栏：强化学习仿真与实践文章标签：人工智能强化学习多智能体多智能体算法

本文链接：https://blog.csdn.net/h320130/article/details/143930925

版权

强化学习仿真与实践专栏收录该内容

4 篇文章

订阅专栏

前言

基于上一篇文章对于强化学习基础概念的介绍，本篇文章针对多智能体强化学习进行介绍和总结，帮助大家了解多智能体的基本概念以及算法，方便大家后续的学习，后面专题也会针对各种经典算法进行介绍。

一、多智能体强化学习的概念

多智能体强化学习（Multi-Agent Reinforcement Learning，MARL）是强化学习（Reinforcement Learning，RL）研究方向的一个分支。多智能体是指在学习过程中，有多个智能体跟环境进行交互。多个智能体之间相互影响，共同决定了系统的整体表现，如图1所示。

根据多个智能体之间的关系，可以分为几种类型：1.完全合作型 2.完全竞争型 3. 混合型。

完全合作型：所有智能体的奖励函数相同，多智能体的目标是达到全局最优。

完全竞争型：两个奖励函数相反的智能体，同时博弈的过程遵循随机博弈的过程。

混合型：多智能体被换分为多个组，组内为合作关系，组间为竞争关系。

利己型：奖励函数互不相关，每个智能体仅考虑自身奖励最大，利益最大化。

按照训练方式进行分类，主要分为集中式，分散式，集中训练和分散执行等框架。

集中式：采用集中训练集中执行的方式，训练效果好；但是由于集中执行的动作空间维度爆炸等问题，使得该方法计算复杂度过高。

分散式：采用分散训练分散执行的方式，计算复杂度低；但是由于各个智能体之间缺少联系，会导致奖励分配不均、多智能体无法实现合作目标，计算不收敛等问题。

集中训练和分散执行框架：为了平衡计算复杂度与精度之间的关系，现有的主流框架为集中训练和分散执行 (centralized training and decentralized execution, CTDE)框架，智能体在集中训练时，共享所有智能的数据，使从全局的角度来优化策略以及学习过程。分布式执行是指每个智能体根据自己的策略进行独立的决策，不依赖于其他智能体的信息或者控制，这样可以降低计算复杂度。由于训练阶段已经进行了全局优化，因此能够实现多智能体之间的有效协作。CTDE框架可以有效地平衡全局奖励与执行效率的关系，实现有效的性能优化和提升。