读书笔记20220802 Multi-agent model predictive control of signaling split in urban traffic networks
最后编辑于V1:20220802 16:10
名词定义
- 1.存储转发模型 Store and Forward
- 2.城市交通响应控制 TUC
由于其庞大的规模、内在的复杂性和非线性行为,诸如城市交通网络之类的大型动态系统的运行在很大程度上仍然是控制工程中的一个挑战。最近,控制工程师一直在寻找用于复杂动态系统建模和控制的非传统方法,特别是多智能体系统技术,其吸引力源于其复合性、灵活性和可扩展性。本文通过提出线性动态系统的多智能体控制框架为这一不断发展的技术做出贡献,该框架将集中式模型预测控制问题分解为由分布式智能体解决的耦合但小的子问题网络。理论结果确保分布式迭代收敛到全局最优解。该框架应用于交通网络的信令拆分控制。使用仿真软件进行的实验表明,多智能体框架的性能可与传统控制相媲美。多智能体框架的主要优点是其优雅的扩展和本地化的重新配置,只需要对附近智能体的控制策略进行调整。
1. Introduction
通信和计算机技术的稳步发展正在塑造交通控制系统的设计方式。今天,运营中心可以接收来自远程传感器的数据,并应用响应当前交通状况的控制策略。在现有的实时控制系统中,交通响应城市控制 (TUC) 框架 (Diakaki et al., 2002) 因其简单、稳健和良好的性能而引起了人们的兴趣,并在慕尼黑、南安普顿和干尼亚的现场应用中得到证实(Bielefeldt 等人,2004;Diakaki 和 Papageorgiou,1997;Kosmatopoulos 等人,2006)。
TUC 使用经过修改的交通流存储转发模型(Gazis 和 Potts,1963 年),具有纯连续状态和控制变量,极大地简化了控制策略的综合。在其基线形式中,TUC 具有离线和在线模块(Diakaki 等,2002)。离线模块解决了一个无约束的线性二次调节器 (LQR) 问题,该问题最小化了队列长度的二次成本函数和与标称拆分信号的偏差。在线模块通过求解一个二次程序来最小化与使用 LQR 策略获得的不可行信号的距离,从而产生可行的分割信号,这些信号满足绿色时间界限并加起来循环时间。
但是,这样的框架不一定能达到潜在约束控制问题的最佳解决方案(Camacho 和 Bordons,2004 年)。
为此,已提出模型预测控制 (MPC) 方法来明确处理约束,从而提高 TUC 框架的解决方案质量(Aboudolas 等人,2007;de Oliveira 和 Camponogara,2007)。
在过去的几十年中,多智能体系统的技术也取得了进步,特别是在人工智能和软件工程方面(Jennings,2000;Maturana 等人,2005)。这种不断发展的技术旨在安排组织中感知和专业知识有限的代理执行超出代理能力的任务。多智能体系统的问题解决能力来自于智能体的交互,在组织利益的驱动下,智能体采用某种形式的推理与他人合作并解决冲突。
智能代理和多代理系统已经成功地解决了非结构化问题(不知道合适的模型),替代和帮助人类解决高抽象问题 。
这些问题的性质与动态控制问题形成鲜明对比,动态控制问题通常是结构化的(已知基于微分方程的良好模型),其目的是控制机器,决策水平较低,需要保证稳定性和收敛性,并且控制变量是连续的。虽然多智能体系统在非结构化问题中具有很强的适应性,但它们主要用作动态控制系统领域的软件工程范例(Maturana 等人,2005;Srinivasan 和 Choy,2006;Tatara 等人,2007) 。
控制工程师和计算机科学家正在通过开发多智能体系统来弥合这些学科之间的差距,以应对大型动态控制系统的庞大规模和复杂性(Li 等人,2005;Manikonda 等人,2001;Tatara 等人,2005 年;Negenborn 等人,2008 年)。对多代理技术的吸引力源于复合性质、灵活性和可扩展性。
本文提出了一个分布式代理网络框架来控制线性动态系统,这些系统通过将具有本地输入约束的线性子系统互连在一起。我们的框架将 MPC 方法产生的优化问题分解为一个由代理网络解决的耦合但小的子问题网络。每个智能体感知和控制其子系统的变量,同时与附近的智能体通信以获得邻域变量并协调它们的动作。
精心设计的问题分解和协调协议确保代理的迭代收敛到 MPC 问题的全局最优。这里报告的工作建立在先前关于分布式控制的工作(Camponogara 等人,2002 年;Camponogara 和 Talukdar,2007 年)的基础上,利用线性动态结构开发更简单的模型和算法。
本文重点研究了多智能体MPC框架的开发及其在城市交通网络信号分离控制中的应用。虽然能够获得与集中式 MPC 相媲美的性能,但多智能体 MPC 框架更加健壮,因为控制代理的故障只会损害其本地子系统。它还支持插件技术,允许在本地进行优雅的扩展和重新配置,而不必在控制中心进行协调。
其余部分的结构如下。
- 第 2 节介绍了城市交通网络的基本概念,并描述了TUC 策略使用的存储转发模型。
- 第 3 节将分裂控制表述为动态耦合子系统网络的 MPC 问题,每个交叉口都有一个。最后但并非最不重要的一点是,该部分将 MPC 问题分解为一组子问题,并概述了用于代理网络以达到最佳解决方案的分布式算法。
- 第 4 节报告了计算实验的结果,旨在将 TUC LQR 策略与多智能体 MPC 方法进行比较。
- 第 5 节得出了一些最后的评论,并提出了未来工作的方向。
2. Urban traffic control
城市交通管制的起源可以追溯到20世纪初,随着交通信号灯的出现。实时交通控制的第一次尝试始于 1980 年代,实施了SCOOT (Robertson and Bretherton, 1991; Hunt et al., 1981) 和 SCATS (Lowrie, 1982) 策略。尽管如此,尽管在过去的几十年中不断进行研究,但大多数控制策略仍然依赖启发式算法来计算信号拆分,例如广受好评的
T
R
A
N
S
Y
T
_{TRANSYT}
TRANSYT (Robertson, 1969)。
城市交通控制通常分为几个模块,分别负责交通控制的几个方面。这些模块包括坡道计量、动态消息信号、信号分离控制和公共交通。分割是指分配给交叉路口的每条街道或道路的绿灯时间。这是主要影响交通的四个控制因素之一(Diakaki,1999;Papageorgiou,2004),其他因素是阶段规范、周期持续时间和交叉口之间的偏移。 TUC策略的信令拆分控制模块是本文特别感兴趣的。
交通响应型城市控制框架使用存储转发模型,该模型用连续变量表示交通流,从而促进了 LQR 和 MPC 等多变量控制算法的综合。这种存储转发模型的基本假设如图 1 所示。
绿色 1 和红色的粗实线表示结的循环。
- 实线方波表示单车流的通常交通流量模型,使用整数变量来区分与循环线的绿色部分相关的有通行权和饱和流量的时期与没有流量的时期,其中循环线是红色的。
- 另一方面,虚线表示与 Gazis 和 Potts (1963) 提出的模型相同的车辆流量。从该图中,可以将存储转发模型视为在控制区间内穿过交叉口停止线的平均流量,这意味着该区间必须大于交叉口的循环时间。
TUC 交通模型并不试图真实地模拟复杂且快速发展的交通动态,例如驾驶员反应时间、加速和减速,而是关注网络流入和流出的长期演变。
2.1. Urban traffic network modeling
下面介绍的交通网络和交通流模型来自 (Diakaki, 1999)。城市交通网络由交叉路口或交叉路口组成,这些路口或交叉路口由代表街道、大道、道路或连接它们的任何其他基础设施的链接连接。
一个路口包括一组在公共交叉区域结束的引道。方法是车辆能够同时穿过交叉路口的链接车道的子集,由网络的拓扑和阶段定义。
一个阶段或阶段是交通灯信号在交叉路口保持不变的时间段。
方法也可以进一步分为一个或多个流。当河流有通行权(r.o.w.)时,可以通过交叉路口停止线的最大流量为饱和流量,通常以每小时车辆数表示。
为确保安全而在连续阶段之间引入的黄色时间称为损失时间。直到阶段重复的时间框架称为周期时间或周期。这些概念是交通建模的基石。
图 2 显示了一个城市交通网络,有两条道路,每条道路有 4 条车道。以东西方向的水平连接为参考,有两种不同的方法:
- 一种是捆绑愿意左转的车辆,
- 另一种是捆绑希望直行的车辆。
箭头显示了该网络的所有流。该图还说明了在每个循环中重复的交叉路口的三个阶段。
因此,城市交通网络被视为一个有向图,其节点是路口 j ∈ J j \in J j∈J,其弧对应于链接 z ∈ Z z \in Z z∈Z。 集合 I j I_j Ij 和 O j O_j Oj 分别具有结点 j j j 的传入和传出链接。 假设进入网络的车辆路线遵循由转弯率建模的统计模式。
具体来说,转弯率 τ z ; w \tau_{z;w} τz;w 给出了从链路 z ∈ I j z \in I_j z∈Ij 到达路口 j 并转向链路 w ∈ O j w \in O_j w∈Oj 的车辆的比率。 出于交通控制分析的目的,转弯率 τ z ; w \tau_{z;w} τz;w、路口的循环时间 C j C_j Cj 和损失时间 L j L_j Lj,以及路段的饱和流量 S z S_z Sz 都是已知常数 .
-
j ∈ J j \in J j∈J是set of Junctions, z ∈ Z z \in Z z∈Z是 J J J的一个出口道;
-
I j I_j Ij and O j O_j Oj是进入和出去的交通link;
-
τ z ; w \tau_{z;w} τz;w是转向率;
-
C j C_j Cj 是周期时长
-
L j L_j Lj 是损失时间
-
S z S_z Sz是饱和流量
-
F j F_j Fj是交叉口相位
-
u j i u_{ji} uji代表交叉口的相位 i i i 绿灯是否开启
满足有效绿灯时间+绿灯损失时间=周期时长的约束
x ( t + 1 ) = A x ( t ) + B u ( t ) + e z ( t ) (3) x_{(t+1)}=Ax_{(t)}+Bu_{(t)}+e_{z(t)}\tag{3} x(t+1)=Ax(t)+Bu(t)+ez(t)(3)
∗ ∗ 下一时刻的状态 = 当前状态 ∗ 状态矩阵 + 控制 ∗ 控制矩阵 + 扰动 ∗ ∗ **下一时刻的状态=当前状态*状态矩阵+控制*控制矩阵+扰动** ∗∗下一时刻的状态=当前状态∗状态矩阵+控制∗控制矩阵+扰动∗∗
2.2. Split control
交通响应控制系统根据相关流的需求调整分离信号。
在标准形式中,TUC 策略使用 LQR 技术来查找时不变增益矩阵,这比优化性能标准 (Diakaki et al., 2002) 更简单,但可能会提供次优控制律。
为了应用 LQR 技术,忽略干扰,动态系统 (3) 变为:
x
(
t
+
1
)
=
A
x
(
t
)
+
B
u
(
t
)
(4)
x_{(t+1)}=Ax_{(t)}+Bu_{(t)}\tag{4}
x(t+1)=Ax(t)+Bu(t)(4)
这种假设是合理的,因为目标是获得令人满意的增益矩阵。 链接的比例占用的最小化
x
z
/
x
z
m
a
x
x_z/x_{^{max}_z}
xz/xzmax ,其中
x
z
m
a
x
x{^{max}_z}
xzmax 是链路容量,试图降低过饱和和溢出的风险。
To this end, 二次函数 is used:
℘
=
1
2
∗
∑
t
=
0
→
∞
(
∣
∣
x
(
t
)
∣
∣
Q
2
+
∣
∣
u
(
t
)
∣
∣
R
2
)
(5)
\wp=\frac{1}2*\sum_{t=0\to{\infty}}(||x(t)||{_Q^2}+||u(t)||{_R^2} )\tag{5}
℘=21∗t=0→∞∑(∣∣x(t)∣∣Q2+∣∣u(t)∣∣R2)(5)
其中
Q
Q
Q 和
R
R
R 是对角矩阵,第一个是正定矩阵,第二个是半正定矩阵。
根据LQR理论,Eq.(5)使用无限时间范围来实现时不变控制律。
由于矩阵
Q
Q
Q 对状态(道路上的车辆数量)进行加权,平均占用率的最小化是通过使其对角元素对应的链接
z
∈
Z
z \in Z
z∈Z等于
1
/
(
x
z
m
a
x
)
2
1/(x_{^{max}_z}) ^2
1/(xzmax)2 来实现的。 矩阵
R
R
R 反映了对控制努力施加的惩罚,通常定义为
R
=
r
I
R=rI
R=rI 其中
r
r
r 是通过实验找到的。
最小化准则
(
5
)
\ (5)
(5) 导致控制律。
u
(
t
)
=
−
L
x
(
t
)
(6)
u(t)=-Lx(t)\tag{6}
u(t)=−Lx(t)(6)
其中
L
L
L 是 Ricatti 的增益矩阵,它取决于
A
A
A;
B
B
B;
Q
Q
Q 和
R
R
R,但对这些矩阵变化的敏感性很小(Diakaki 等,2002)。
反馈控制律 (6) 不考虑对控制信号的约束,这些约束是通过在每个采样时间 t 和每个结
j
∈
J
j \in J
j∈J 解决以下问题以特定方式施加的。
其中
U
j
;
i
(
t
)
U_{j;i}(t)
Uj;i(t) 是欧几里得空间 tob
u
j
;
i
(
t
)
u_{j;i}(t)
uj;i(t) 中最接近的解。
Q
j
(
t
)
Q_j(t)
Qj(t) 是一个二次规划,可以使用一种有效算法 (Diakaki, 1999) 实时求解,该算法最多在
∣
F
∣
|F|
∣F∣ 步内收敛。
尽管这种方法给出了可行的方案,但得到的解决方案不一定满足方程4 定义的动态系统的最优条件,但受控制信号的约束。
实际上,这种多变量调节器对未知干扰以纯粹的反应方式运行,因为没有对干扰进行预测。
另一方面,矩阵
L
L
L的结构为调节器提供了门控效应,即减少了外围连接处高负载链路的分裂,以防止上游链路饱和,从而避免僵局。
以前的工作报告说,通过用考虑系统约束(例如模型预测控制)的程序替换标准 LQR 控制律可能会产生重大改进。(Aboudolas 等人,2007 年;de Oliveira Camponogara,2007 年;de Oliveira,2008 年)
一般来说,MPC 方法由 (Camacho and Bordons, 2004; Kühne, 2005) 组成。
- 一个在有限时间范围内令人满意地描述过程动态的预测模型;
- 一个成本函数,它在最小化时给出控制信号;
- 以及预测和控制的滑动范围,它在每个样本周期向前移动一步,需要计算新的控制动作,仅执行实际时间的控制动作。
模型预测控制最小化了 LQR 控制的相同成本函数,除了它覆盖了预测范围给出的有限时间范围。
MPC 被认为是一种前馈控制策略,因为它的预测模型中可以嵌入一个扰动模型。
然而,干扰模型的使用可能会掩盖在相同情况下计算更好的控制信号的好处。
换句话说,在比较 TUC 和 MPC 策略的性能时,交通流的动态模型应该是相同的。 遵循这些原则,在时间
t
t
t 的信号分离控制的 MPC 问题被转换为:
其中
K
K
K是预测时间范围的长度;
x
(
t
)
x(t)
x(t) 是
t
t
t 时刻交通网络的当前状态;
x
^
(
t
+
k
∣
t
)
\hat{x}(t + k|t)
x^(t+k∣t) 是
t
+
k
t+k
t+k 时刻的状态预测;
u
^
(
t
+
k
)
∣
t
\hat{ u}{(t+k)|t}
u^(t+k)∣t 是时间
t
+
k
t+k
t+k 的控制预测,但只有
u
^
(
t
∣
t
)
\hat{u}{(t|t)}
u^(t∣t)$ 是用
u
(
t
)
=
u
^
(
t
∣
t
)
u(t)= \hat{u}{(t|t)}
u(t)=u^(t∣t)实现的;
C
C
C 和
c
c
c 定义了不等式约束; 和
D
D
D 和
d
d
d 定义等式约束
3. Multi-agent model predictive control
本节介绍线性动态网络 (LDN) 的概念,它对上述交通流动态和拆分控制问题进行建模。 它提出了 LDN 的分布式公式 P ( t ) P(t) P(t),它概括了 E q s ( 8 a ) – ( 8 e ) Eqs(8a)–(8e) Eqs(8a)–(8e) 中给出的拆分控制的 MPC 公式。 此外,本节将 P ( t ) P(t) P(t) 分解为子问题的集合 { P m ( t ) {P_m(t)} Pm(t)},并为代理网络提出分布式算法以解决 P ( t ) P(t) P(t) 通过迭代求解 { P m ( t ) {P_m(t)} Pm(t)}。
3.1. MPC formulation
动态网络由
M
M
M 子系统的互连组成,形成图
G
=
(
V
,
E
)
G=(V,E)
G=(V,E),其中每个子系统是
V
V
V 中的一个节点,每个弧
(
i
;
j
)
在
E
(i;j)\ 在 E
(i;j) 在E 中定义了子系统
i
i
i 和
j
j
j 之间的耦合。 向量
x
m
∈
R
n
m
x_m \in \mathbb{R}^{nm}
xm∈Rnm 具有本地状态,
u
m
∈
R
p
m
u_m \in \mathbb{R}^{pm}
um∈Rpm 具有子系统
m
m
m 的本地控制。 子系统
m
m
m 的状态随时间变化取决于其本地状态、本地控制信号和上游子系统的控制信号。 对于离散时间动力学,子系统
m
m
m 的状态方程为:
子系统
m
m
m的状态
x
m
x^m
xm不止受到自身的状态和控制信号的影响,还受到上游子系统信号控制的影响。
x
m
(
t
+
1
)
=
A
m
(
t
)
x
m
(
t
)
+
∑
i
∈
I
(
m
)
B
m
i
u
i
(
t
)
)
(9)
x_m(t+1)=A_m(t)x_m(t)+\sum_{i \in I_{(m)}}B_{mi}u_i(t)\tag{9})
xm(t+1)=Am(t)xm(t)+i∈I(m)∑Bmiui(t))(9)
- x = ( x 1 , x 2 , . . . , x m ) x=(x_1,x_2,...,x_m) x=(x1,x2,...,xm)为整个路网所有交叉口的状态向量
- u = ( u 1 , u 2 , . . . , u m ) u=(u_1,u_2,...,u_m) u=(u1,u2,...,um)为整个路网所有交叉口的控制向量
3.3. Problem decomposition
完美的问题分解会导致
P
(
t
)
P_{(t)}
P(t) 和 {
P
m
(
t
)
P_{m(t)}
Pm(t)} 之间的一些关系,这些关系对于代理网络的分布式算法设计很方便。
假设和结果属性如下所示。 读者可以参考 (Camponogara and de Oliveira, 2009) 中的演示和一些插图。
3.4. Multi-agent distributed control
3.4.3. Multi-agent MPC as a multi-agent system
总而言之,多智能体 MPC 框架属于多智能体系统的范畴,它是由多个交互的智能智能体组成的系统,具有自治、局部视图和去中心化的特征(Wooldridge,2002)。 代理具有有限的自主权,因为它们遵循假设 3 和 4 强加的迭代和通信协议,但是每个代理 m 可以根据过去最好的方法自由决定参数 bm 和 rm 的值,执行多次迭代而不是 简单地满足 Armijo 规则,甚至使用完全不同的算法来求解 Pm 或找到隐式满足 Armijo 规则的接近最优解。 代理的视图是本地的,因为它们分别感知和决定一小部分状态和控制变量的值。
并且代理是分散的,因为没有一个代理可以完整地查看或操作整个网络。
3.5. Closed-loop stability
总而言之,如果开环plant稳定,分布式代理可以实施终端成本策略,否则在不稳定模式上引入终端约束,同时对稳定模式实施终端成本。 代理使用惩罚项近似地强制执行终端约束。 无论采用何种策略或其组合,代理都可以在不损害 P m ( t ) {P_{m(t)}} Pm(t)的局部结构的情况下确保闭环稳定性。
4. Simulation analysis
5. Summary and future work
由于其庞大的规模、内在的复杂性和非线性行为,大型动态系统的运行在很大程度上仍然是控制工程中的一个挑战(Tatara 等人,2005,2007)。 最近,控制工程师已经将注意力转向多智能体系统,因为它们具有复合性、灵活性和可扩展性。
为此,本文通过线性动态网络的多智能体控制框架为这一不断发展的技术做出了贡献,该框架是从动态耦合但具有局部约束的子系统的互连中获得的。
本文特别感兴趣的是由存储转发方程建模的交通流的信令拆分控制。
这种模型导致与交通路口匹配的子系统的线性动态网络。状态变量是通往每个路口的道路上的车辆数量,而控制信号是给予每个阶段的绿灯时间。
信号分离控制需要解决一个受约束的、无限时间的线性二次调节器问题(Diakaki 等人,2002 年):
- 二次成本寻求最小化队列长度和与标称信号的偏差;
- 约束确保绿色时间加起来等于周期时间并且在界限内;
- 来自存储转发流量模型的线性动态。
- TUC 方法使用反馈控制律进行信号拆分,从而使用 LQR 技术离线计算静态反馈矩阵,并在线求解二次程序以恢复拆分可行性。
另一方面,模型预测控制通过使用有限时间滚动范围和在线解决优化问题以系统的方式处理约束。
为了应对大型网络并允许分布式重新配置,本文提出将 MPC 问题分解为一组局部耦合的子问题,这些子问题由分布式代理网络迭代解决。
如果它们同步工作,则这些分布式代理产生的迭代将被吸引到全局最优解决方案。
实验的目的有三个:
- 首先,数值分析旨在证明多智能体系统的收敛行为,并将其速度与解决整体 MPC 问题的理想集中式智能体的速度进行比较。
- 其次,仿真分析表明,在使用 Aimsun 模拟器实现的代表性场景中,多智能体模型预测控制可以实现与 TUC 方法相当的性能。
- 第三,实验通过引入两个额外的受控路口来说明多智能体 MPC 框架的灵活性,这仅需要在相邻路口重新配置控制智能体。
迄今为止报告的研究是多学科的,在多智能体技术、优化和城市交通控制领域都有贡献。进一步的改进将沿着以下方向进行:
大型网络的数值和模拟研究旨在确认多智能体 MPC 框架的潜力;
更准确地表示交通流量的交通模型的制定和应用(Aboudolas 等,2007);以及多代理框架的正式扩展,以处理对状态变量的约束。