SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning

最新推荐文章于 2025-01-06 11:24:02 发布

大章鱼（张文哲

最新推荐文章于 2025-01-06 11:24:02 发布

阅读量732

点赞数

分类专栏：神经网络笔记文章标签： MARL SMACv2 SMAC 星际争霸2

本文链接：https://blog.csdn.net/qq_40991687/article/details/129405601

版权

笔记同时被 2 个专栏收录

19 篇文章

订阅专栏

神经网络

6 篇文章

订阅专栏

论文地址：SMACv2

背景：

大部分SMAC图上pymarl2的QMIX版本代码都能达到100%胜率，SMAC对于如今的MARL算法可能不再是一个合适的benchmark。并且现在缺少一种合作MARL benchmark同时具备局部视野、复杂的动态模型、高维状态空间、支持规模比较大的智能体数量。因此Deepmind升级版SMAC为SMACv2，希望为MARL提供一个新的、更难的benchmark。

原SMAC不足：

1、随机性不足：SMAC的初始状态以及状态转移方程相对确定，智能体很可能只需要学习到每一个时间步的最优动作而不需要关注太多其他与时间序列相关的观测信息。论文进行对比试验，对多智能体算法只输入agent_id和time_step的方式（open-loop）以及输入SMAC原始的特征方式（closed-loop）进行算法的对比训练。

实验结果表明，两个基于Q值以及策略学习的MARL的sota算法，如QMIX和MAPPO依然能在SMAC很多地图上达到不错的性能。

2、原始SMAC存在部分冗余且可推断的特征：SMAC原始特征中部分特征可以由其他特征推断出来，而MARL学习的特征信息之间需要尽可能保持不相关性。SMACv2通过对部分特征信息的mask进行对比试验，证明了原始的SMAC特征中存在一些冗余且很多特征是可推断的。

SMACv2改进：

1、智能体的unit type随机生成：原始SMAC的每个智能体的unit type都是固定的，为了增大随机性，SMACv2对于每个智能体以一个固定的概率分布随机生成unit type。具体地，SMACv2对每个种族(神族、人族、虫族)都设置了3种unit type，使得智能体学习到的策略具有适配性。