来源:专知
本文为论文介绍,建议阅读5分钟
我们的评估显示,通过Mix-ME获得的这些多代理版本不仅能与单代理基线竞争,而且在部分可观察的多代理设置下常常胜过它们。
在许多实际系统中,例如自适应机器人技术,实现单一、优化的解决方案可能是不够的。相反,为适应各种不同的环境和要求,通常需要一组多样化的高性能解决方案。这就是质量-多样性(QD)的领域,其目标是发现一系列高性能的解决方案,每一个都有它们自己独特的特性。近期,QD方法在很多领域都取得了成功,包括机器人技术,在这个领域,它们被用来发现能适应损伤的行走控制器。然而,大多数现有的工作都集中在单一代理设置上,尽管许多感兴趣的任务都是多代理的。为此,我们介绍了Mix-ME,这是一种新的多代理版本的受欢迎的MAP-Elites算法,它通过混合来自不同团队的代理来形成新的解决方案,使用类似交叉的操作符。我们评估了在部分可观察的连续控制任务上提出的方法。我们的评估显示,通过Mix-ME获得的这些多代理版本不仅能与单代理基线竞争,而且在部分可观察的多代理设置下常常胜过它们。
https://www.zhuanzhi.ai/paper/4dbb429879c9dec7094a6f1bce498ca9