摘要
在部分可观测的多智能体系统中,分散协作需要智能体之间进行有效的通信。本文聚焦于全局通信可用但可能不可靠的问题类别,提出了FCMNet,这是一种基于强化学习的方法,使智能体能够同时学习有效的多跳通信协议和实现团队级决策的通用分散策略。FCMNet利用多个定向循环神经网络的隐藏状态作为智能体之间的通信消息,通过简单的多跳拓扑结构,赋予每个智能体在每个时间步接收其他所有智能体顺序编码信息的能力,从而促进了更好的全局协作。在具有共享奖励的星际争霸II微管理任务以及具有个体奖励的协作多智能体路径寻找任务上的实验表明,FCMNet在所有星际争霸II微管理任务中均优于最先进的基于通信的强化学习方法,并在某些任务中优于值分解方法。此外,FCMNet在随机消息丢失或二进制消息等现实通信干扰下表现出较强的鲁棒性,展示了其在各种现实条件下机器人任务中的潜在应用价值。
关键词:多智能体强化学习;通信学习;分散合作;
1. 引言
多智能体强化学习(MARL)近年来备受关注,在自动驾驶、多机器人控制和视频游戏AI等领域展现出广阔的应用前景。然而,从单智能体到多智能体的转变带来了新的挑战,尤其是在部分可观测环境中,仅依靠自身知识/记忆学习有效的协作策略往往困难重重。智能体之间的显式通信是解决这一问题的有效途径,它能促进信息共享和意图表达,实现真正的团队级协作。
早期的通信学习(CL)方法主要分为两类:基于强化学习的离散消息选择(如RIAL)和基于反向传播的连续消息学习(如DIAL)。近年来,诸如SchedNet、G2ANet和ATOC等方法致力于更通用的通信学习,注重动态通信拓扑和降低通信负担,但这些方法通常无法充分利用所有智能体的信息,限制了团队协作,且对通信干扰的鲁棒性研究不足。
本文提出了全通信记忆网络(FCMNet),这是一种可微的通信学习框架,适用于全局通信可用但不可靠的场景。FCMNet使智能体能够同时学习全局多跳通信协议和协作任务的通用分散策略,通过多个并行定向循环神经网络的隐藏状态和单元状态作为通信消息,确保每个智能体在每个时间步接收来自其他所有智能体的信息,并结合自身观察进行决策。实验结果表明,FCMNet在星际争霸II微管理任务中表现优异,且在现实通信干扰下具有较强的鲁棒性。
2. 核心问题与挑战
在部分可观测的多智能体系统中,智能体只能获取局部观测信息,难以推断其他智能体的意图和全局状态,这使得协作变得极具挑战性。通信是解决这一问题的关键,但现有方法存在以下不足:
- 信息利用不充分:许多方法无法充分利用所有智能体的信息,限制了团队协作能力。
- 鲁棒性不足:对通信干扰(如消息丢失、二进制消息)的适应性较差,难以在现实环境中应用。
- 动态通信策略的局限性:动态通信策略虽然能减少通信负担,但在需要全局通信的任务中可能表现不佳。
3. FCMNet方法解析
图1展示了FCMNet中策略网络的结构,该示例任务中有三个智能体,因此存在三条并行的通信通道(网络中间智能体之间的箭头表示通信方向)。通信沿这些箭头方向进行,连接智能体的长短期记忆网络(LSTM)单元,形成三条并行的单向通信通道。在这个结构中,每个LSTM单元的输出隐藏状态和细胞状态充当消息。这些消息沿着每个通道在智能体之间依次传输;所有通信都在同一时间步完成(即多跳通信)。我们还采用了一个独立的评论家网络,它与策略网络结构相同,但每个智能体只有一个状态值估计输出。在智能体之间,对行动者网络和评论家网络均采用参数共享机制,但这两个网络之间不共享参数。
3.1 整体架构
FCMNet基于集中训练分散执行(CTDE)框架,采用演员-评论家结构。其核心在于全局多跳通信协议和自记忆单元。
3.2 全局多跳通信协议
- 定向RNN通道:对于n个智能体,每个智能体配备n个长短期记忆(LSTM)单元,形成n个通信通道。每个通道中的LSTM单元按固定顺序连接,形成单向信息流。
- 消息传递:每个LSTM单元的隐藏状态和单元状态作为消息传递给下一个智能体。在通道i中,智能体i的LSTM单元位于最后,接收其他所有智能体处理后的信息。
- 参数共享:同一通道内的LSTM单元参数在所有智能体间共享,不同通道的参数独立。
3.3 自记忆单元
每个智能体配备一个额外的LSTM单元,用于整合自身历史观测信息。其输入为当前观测,初始隐藏状态和单元状态为上一时间步的输出,输出与通信协议的输出拼接后输入到策略网络。
3.4 训练方法
采用多智能体版本的近端策略优化(PPO)算法,通过集中训练优化演员和评论家网络,利用梯度传播学习通信协议和协作策略。PPO调整演员网络权重θ的目标函数为:
L
C
L
I
P
(
θ
)
=
E
^
t
[
min
(
r
t
(
θ
)
A
^
t
,
clip
(
r
t
(
θ
)
,
1
−
ϵ
,
1
+
ϵ
)
A
^
t
)
]
L^{CLIP}(\theta)=\hat{\mathbb{E}}_{t}\left[\min \left(r_{t}(\theta) \hat{A}_{t}, \text{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right) \hat{A}_{t}\right)\right]
LCLIP(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)]
其中,
r
t
(
θ
)
r_{t}(\theta)
rt(θ)是裁剪后的概率比:
r
t
(
θ
)
=
π
θ
(
a
t
∣
s
t
)
π
θ
o
l
d
(
a
t
∣
s
t
)
r_{t}(\theta)=\frac{\pi_{\theta}(a_{t} | s_{t})}{\pi_{\theta_{old }}(a_{t} | s_{t})}
rt(θ)=πθold(at∣st)πθ(at∣st)
π
θ
\pi_{\theta}
πθ和
π
θ
o
l
d
\pi_{\theta_{old }}
πθold分别表示新、旧策略,
ϵ
\epsilon
ϵ通常取0.2作为裁剪超参数,
A
^
t
\hat{A}_{t}
A^t是广义优势函数的截断版本。通过最小化裁剪和未裁剪目标的损失,PPO有效限制了策略的更新幅度。此外,PPO还在目标函数中加入策略熵项,以鼓励探索,避免过早收敛到次优策略。
4. 实验与结果
4.1 实验设置
- 环境:星际争霸II微管理挑战(SMAC)和多智能体路径寻找任务。
- 基线算法:CommNet、G2ANet、SchedNet、IQL、VDN、QMIX。
- 评估指标:SMAC任务中的胜率,路径寻找任务中的平均 episode 长度。
4.2 关键实验结果
4.2.1 StarCraft II 微管理任务
任务 | FCMNet | CommNet | G2ANet | SchedNet | IQL | VDN | QMIX |
---|---|---|---|---|---|---|---|
2m_vs_1z | 100.0(0.0) | 93.8(10.8) | 100.0(0.0) | 100.0(0.0) | 98.4(2.7) | 96.9(5.4) | 96.9(3.1) |
3m | 100.0(0.0) | 90.6(3.1) | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) |
2c_vs_64zg | 100.0(0.0) | 79.7(14.9) | 89.1(5.2) | 95.3(2.7) | 28.1(10.4) | 81.3(7.7) | 93.8(6.3) |
3s_vs_3z | 100.0(0.0) | 0.0(0.0) | 0.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 98.4(2.7) |
3s_vs_4z | 92.2(5.2) | 0.0(0.0) | 0.0(0.0) | 89.1(5.2) | 96.9(3.1) | 98.4(2.7) | 98.4(2.7) |
10m_vs_11m | 71.9(10.4) | 0.0(0.0) | 1.6(2.7) | 0.7(0.3) | 15.6(12.9) | 78.1(7.0) | 85.9(5.2) |
5m_vs_6m | 40.6(21.9) | 0.0(0.0) | 0.0(0.0) | 0.0(0.0) | 28.1(3.1) | 18.8(0.0) | 59.4(3.1) |
FCMNet在所有通信基线上均表现更优,在难度较高的任务中优势显著。在5m_vs_6m任务中,FCMNet的胜率为40.6%,虽低于QMIX的59.4%,但显著优于其他通信方法。
4.2.2 鲁棒性实验
-
二进制消息:为模拟数字通信场景,FCMNet将连续消息转换为二进制消息。具体地,通过编码器将消息压缩到[-1, 1]区间,再通过二值化函数生成离散消息:
b ( x ) = x + ϵ ∈ { − 1 , 1 } b(x)=x+\epsilon \in\{-1, 1\} b(x)=x+ϵ∈{−1,1}
其中, ϵ \epsilon ϵ服从分布:
P ( ϵ = 1 − x ) = 1 + x 2 , P ( ϵ = − x − 1 ) = 1 − x 2 P(\epsilon=1-x)=\frac{1+x}{2}, \quad P(\epsilon=-x-1)=\frac{1-x}{2} P(ϵ=1−x)=21+x,P(ϵ=−x−1)=21−x
完整二值化过程为:
B ( x ) = b ( tanh ( ω t − 1 x + b t − 1 ) ) B(x)=b\left(\tanh \left(\omega^{t-1} x+b^{t-1}\right)\right) B(x)=b(tanh(ωt−1x+bt−1))
实验表明,FCMNet在二进制消息下的路径寻找任务中表现接近实值消息,训练稳定性稍差但仍能收敛。 -
消息丢失:当消息丢失概率≤3%时,FCMNet性能不受影响;超过3.5%时,性能显著下降。
-
随机通信顺序:随机通信顺序下,FCMNet收敛速度更快,性能与固定顺序相当。
五、总结与展望
本文提出的FCMNet在多智能体系统团队协作研究中成果显著。它能同时学习多跳通信协议和分散式策略,在《星际争霸II》微管理任务和多智能体路径规划任务中,性能优于多种基线算法,在通信干扰下也有一定鲁棒性。
未来,FCMNet可在多个方向拓展。一是处理异构智能体团队,探索更合适的权重共享方式;二是研究更通用的通信拓扑,适应不同场景;三是从仿真走向实际,在物理机器人协作任务中测试和应用,推动多智能体协作在现实世界的广泛应用。