基于动态自选择参数共享的合作多智能体强化学习算法

最新推荐文章于 2023-06-28 16:15:09 发布

宋罗世家技术屋

最新推荐文章于 2023-06-28 16:15:09 发布

阅读量497

点赞数 1

分类专栏：计算机科学及电子科技技术专栏文章标签：算法

本文链接：https://blog.csdn.net/qq_61890005/article/details/127320579

版权

计算机科学及电子科技技术专栏专栏收录该内容

46 篇文章 2 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

【摘要】在多智能体强化学习的研究中，参数共享作为学习过程中一种信息集中的方式，可以有效地缓解不稳定性导致的学习低效性。但是，在实际应用中智能体使用同样的策略往往会带来不利影响。为了解决此类过度共享的问题，提出了一种新的方法来赋予智能体自动识别可能受益于共享参数的智能体的能力，并且可以在学习过程中动态地选择共享参数的对象。具体来说，智能体需要将历史轨迹编码为可表示其潜在意图的隐信息，并通过与其余智能体隐信息的对比选择共享参数的对象。实验表明，提出的方法在多智能体系统中不仅可以提高参数共享的效率，同时保证了策略学习的质量。

【关键词】 多智能体系统 ; 强化学习 ; 参数共享

0 引言

多智能体强化学习（multi-agent reinforcement learning，MARL）旨在在共享环境中联合训练多个智能体从而完成给定的任务。近期，多智能体强化学习领域中应用非常广泛的是中心化学习去中心化执行（centralized learning decentralized execution，CTDE）的训练框架。CTDE框架使智能体在学习的过程中可以共享经验池中的历史轨迹，进行必要的信息互补，因此被广泛应用于多智能体强化学习的算法设计和实现中，例如：联合动作学习（joint action learning）、智能体建模（agent modelling）、多智能体通信（multi-agent communication）以及信任分配问题（credit assignment）。

然而，当多智能体系统（multi-agent system， MAS）规模较大时，

了解本专栏

超级会员免费看

宋罗世家技术屋

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于动态自选择参数共享的合作多智能体强化学习算法

1.1 研究背景通常，多智能体强化学习过程可以被建模成马尔可夫博弈，记作，其中包括智能体集合、状态空间 S、联合观测空间，以及联合动作空间。每个智能体i仅可得到关于当前状态s的局部观测。转移函数P定义了基于当前状态和动作所能到达的下一状态的分布S×A→S；而定义了智能体i在t时刻接收到的奖赏函数。算法的学习目标是找到一组使每个智能体均可获得最大累计奖赏的策略，即求出，其中π-i定义为，γ是折扣因子，T 是一个执行周期（episode）的步长。
复制链接

扫一扫