(二)多智能体强化学习

目录

前言

一、多智能体强化学习的概念

二、多智能体面临的问题

三、现有算法简介

总结


前言

         基于上一篇文章对于强化学习基础概念的介绍,本篇文章针对多智能体强化学习进行介绍和总结,帮助大家了解多智能体的基本概念以及算法,方便大家后续的学习,后面专题也会针对各种经典算法进行介绍。

一、多智能体强化学习的概念

   多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)是强化学习(Reinforcement Learning,RL)研究方向的一个分支。多智能体是指在学习过程中,有多个智能体跟环境进行交互。多个智能体之间相互影响,共同决定了系统的整体表现,如图1所示。

        根据多个智能体之间的关系,可以分为几种类型:1.完全合作型 2.完全竞争型 3. 混合型。

完全合作型:所有智能体的奖励函数相同,多智能体的目标是达到全局最优。

完全竞争型:两个奖励函数相反的智能体,同时博弈的过程遵循随机博弈的过程。

混合型:多智能体被换分为多个组,组内为合作关系,组间为竞争关系。

利己型:奖励函数互不相关,每个智能体仅考虑自身奖励最大,利益最大化。

        按照训练方式进行分类,主要分为集中式,分散式,集中训练和分散执行等框架。

集中式:采用集中训练集中执行的方式,训练效果好;但是由于集中执行的动作空间维度爆炸等问题,使得该方法计算复杂度过高。

分散式:采用分散训练分散执行的方式,计算复杂度低;但是由于各个智能体之间缺少联系,会导致奖励分配不均、多智能体无法实现合作目标,计算不收敛等问题。

集中训练和分散执行框架:为了平衡计算复杂度与精度之间的关系,现有的主流框架为集中训练和分散执行 (centralized training and decentralized execution, CTDE)框架,智能体在集中训练时,共享所有智能的数据,使从全局的角度来优化策略以及学习过程。分布式执行是指每个智能体根据自己的策略进行独立的决策,不依赖于其他智能体的信息或者控制,这样可以降低计算复杂度。由于训练阶段已经进行了全局优化,因此能够实现多智能体之间的有效协作。CTDE框架可以有效地平衡全局奖励与执行效率的关系,实现有效的性能优化和提升。

二、多智能体面临的问题

        1. 环境的非平稳性:在多智能体环境中,每个智能体要考虑其他智能体的动作和回报,使得环境非平稳变化。在这样的的环境中,多智能体之间相互影响,奖励函数不能正确反映出行为的正确性,使得算法不收敛。

        2.多智能体的非完全观测:每个智能体仅能实现自己有关环境信息的观测,不能实现全局信息的观测。

        3.多智能的奖励分配问题:当多智能体之间的关系为合作关系时,即全局奖励函数作为所有智能的奖励时,如何确定各智能体对于奖励函数的贡献值,也就是确定奖励的分配是十分重要的问题。这个问题也被称为信用分配问题(credit assignment )。

        4.训练执行框架的设计:框架的设计会影响多智能体强化学习的训练效果,进而影响全局的表现。不同的问题要具体分析,设计合理的框架进行训练和执行。

        5.学习过策的鲁棒性问题:由于训练数据有限,使得学习后的策略仅在特定环境下有效。尽可能多的设计各种情况下的训练场景,增强学习过程的鲁棒性和稳定性。

三、现有算法简介

        此部分不做过多的详细介绍,后续会根据不同的算法写文章进行专门详细的介绍。协作类算法主要是研究如何通过集中式的训练达到各智能体独立执行策略;通信类的算法是建立多智能体之间的联系从而实现协同合作。

协作类算法:

VDN

QMIX

QTRAN

MADDPG

……

通信类算法:

RIAL

CommNet

BiCNet

ATOC

IC3Net

TarMAC

SchedNet

DGN

……


总结

        通过本篇文章,大家可以对多智能体有一个初步的了解和认知。至于各种算法的具体表现形式和步骤将会在接下来的文章中详细介绍。

【资源说明】 基于生物启发式算法多智能体强化学习算法python实现源码+项目说明+模型及注释.zip ## 项目介绍: 多智能体系统(MAS)由于具有解决复杂任务的灵活性、可靠性和智能性,已被广泛地应用于不同的应用领域,如计算机网络、机器人和智能电网等。通信是多代理世界保持组织和生产的重要因素。然而,以往的多代理通信研究大多试图预先定义通信协议或采用额外的决策模块进行通信调度,这将造成巨大的通信开销,并且不能直接推广到一个大型代理集合。本文提出了一个轻量级的通信框架:**基于信息素协同机制的分布式深度Q网络算法(Pheromone Collaborative Deep Q-Network, PCDQN)**,它结合了深度Q网络和stigmergy机制。它利用stigmergy机制作为部分可观察环境下独立强化学习代理之间的间接沟通桥梁。我们证明了PCDQN框架的优越性,同时也将我们的模型转移到解决多代理路径搜索问题上。利用PCDQN框架,多代理编队能够学习适当的策略,成功地在雷区导航环境中获得最优路径。 *** ## 实验环境 ```sh Windows10操作系统,8GB内存,2核Intel Core i7-6500U pytorch-1.4.0+cpu python 3.8 ``` 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

追风者...

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值