【NeurIPS 2023】Mix-ME:多智能体学习的质量多样性

c92bbd741c849c73fc6f9b5d3067cc10.png

来源:专知
本文为论文介绍,建议阅读5分钟
我们的评估显示,通过Mix-ME获得的这些多代理版本不仅能与单代理基线竞争,而且在部分可观察的多代理设置下常常胜过它们。

a282dd6138c3be59361b494346cc81ca.png

在许多实际系统中,例如自适应机器人技术,实现单一、优化的解决方案可能是不够的。相反,为适应各种不同的环境和要求,通常需要一组多样化的高性能解决方案。这就是质量-多样性(QD)的领域,其目标是发现一系列高性能的解决方案,每一个都有它们自己独特的特性。近期,QD方法在很多领域都取得了成功,包括机器人技术,在这个领域,它们被用来发现能适应损伤的行走控制器。然而,大多数现有的工作都集中在单一代理设置上,尽管许多感兴趣的任务都是多代理的。为此,我们介绍了Mix-ME,这是一种新的多代理版本的受欢迎的MAP-Elites算法,它通过混合来自不同团队的代理来形成新的解决方案,使用类似交叉的操作符。我们评估了在部分可观察的连续控制任务上提出的方法。我们的评估显示,通过Mix-ME获得的这些多代理版本不仅能与单代理基线竞争,而且在部分可观察的多代理设置下常常胜过它们。

https://www.zhuanzhi.ai/paper/4dbb429879c9dec7094a6f1bce498ca9

a3593c89d04661e7441445dd2f3e2fae.png

f234984c55b5105f3a142e7087e200c0.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值