本文仅用于学习记录,如有错误,请各位大佬斧正。
Event-Triggered Model Predictive Adaptive Dynamic Programming for Road Intersection Path Planning of Unmanned Ground Vehicle
Chaofang Hu , Lingxue Zhao , and Ge Qu
一.摘要
摘要:本文提出了一种事件触发的模型预测自适应动态规划(MPADP)算法,用于UGV在道路交叉口的路径规划。按照自适应动态规划(ADP)的批评者方案,成本函数的近似和控制策略的生成被结合起来,形成MPADP。ADP的无限期成本函数叠加在模型预测控制(MPC)的预测期上,然后将无限期成本函数转换为MPADP中的有限期叠加成本函数。通过最小化预测水平线内的近似误差,提高了近似精度。考虑到能源消耗的限制,我们设计了基于成本函数近似不匹配的事件触发机制。设计了三种触发条件,并证明了近似误差的相应约束性。仿真结果说明了事件触发MPADP方法在道路交叉口路径规划中应用的有效性、效率和可行性。
道路交叉口在道路系统占比少,但是在此发生的交通事故占比很高。现有的道路交叉口研究大多集中在车辆调度上,主要针对交通流的有效性和顺畅性。然而,忽略了车辆本身的运动特性。遇到极端情况时,指定的路径和速度无法保证不碰撞。因此在交叉点路径规划中有必要考虑运动特性和道路条件。
二.本文贡献
本文将模型预测自适应动态规划方法(MPADP)引入用于道路交叉口的UGV路径规划:
(1)综合考虑速度,防撞,交规等约束,采用MPADP策略进行道路交叉口路径规划。
(2)设计了三个事件触发条件进行路径规划,减轻了计算负担。
(3)与传统事件触发机制不同,控制策略时时刻刻产生,但只有满足触发条件才会更新逼近结果。可保证路径规划的有效性和效率。
三.问题描述与建模
1.道路模型:
每条车道宽为b,转弯处为四分之一圆弧。UGV从A的右车道转入H的右车道,其余车辆为障碍物车辆,简称OBJ。将此路口分为三个阶段,入口(R1->R2,预期点R2),转弯口(R2-R3,预期点R3),出口(R3->R4,预期点R4)。主要目标是为 UGV 在道路交叉口找到一条具有适当速度的最佳无碰撞路径。
2.车辆模型:
本文利用UGV运动学模型进行路径规划,如图2所示。车辆由前轮胎转向,后轮胎转向角不变。图中XOY为惯性坐标系; x 和 y 分别表示重心 (CG) 在 X 和 Y 轴上的投影; φ为偏航角; δf 为前轮胎转向角; v 是CG的速度; a是加速度; lb为UGV的宽度; lf 和 lr 分别是前后轮胎的轴距。
即车辆运动学模型为
离散化后
状态变量为 ξ = [x, y, v, ϕ]T,控制输入为 u = [a, δf ]T。因此,离散模型被概括为
四.道路交叉口路径规划
整体事件触发的 MPADP 策略如图 3 所示。
Critic 的主要目标是通过使用参数逼近器来精确估计Cost Function;
Actor根据不同约束,利用近似结果来制定路径规划的优化问题;
通过求解优化问题生成控制策略Uk;
在此基础上,MPADP与事件触发机制相结合。一旦逼近精度低于阈值,或者路况发生变化,就需要更新逼近结果。否则,将保留参数以减少 critic 的计算量。
1.Cost Function & 约束条件
原始Cost Function
转弯时,要满足以下约束:
(1)状态约束
ξ(k) ∈ χi,i=123,分别代表入口、交叉口和出口阶段的状态集。UGV在不同时刻的状态应属于当前所在的状态集
(2)加速度约束
当障碍物车辆存在于检测范围ddet内时,加速度的下限和上限分别变为amin,det和amax,det。 dq(k)为k时刻UGV与第q辆障碍车的距离
转向角约束:
(3)控制输入增量约束
防止控制输入变化巨大,导致车辆舒适性下降,控制输入增量约束如下:
(4)道路防撞约束
➀ 表示 UGV 与交叉路口的外轮廓发生碰撞。为避免碰撞,UGV 的左前点和左后点与 O 的距离应始终保持不超过 R + b。 ➁ 和 ➂ 是 UGV 与内部轮廓碰撞的情况。由于没有指定碰撞点,因此很难弄清楚碰撞点与O之间的数学关系。
基本思想是在矩形上找到距离圆弧最近的点。如果点到 O 的距离小于 R,则矩形与圆弧重叠。道路防撞约束可以用非线性函数fout和fin表示。
(5)障碍车避让约束
当UGV接近或穿越路口时,安全距离较短,表示为ds。 UGV驶出路口时,安全距离为dl,大于ds。
2.MPADP法
(1)成本函数的逼近
ADP的无限范围成本函数可以定义为:
然后,V(k)可以用两个相邻的时刻表示
有限水平堆叠成本函数 J(k) 为:
其中 V (k + i|k) 表示在时间 k 的第 i 个预测成本函数
则
利用Critic逼近J(k),根据(16)(18),把J(k)重写成(19)
根据(16)(18),两个相邻预测时刻之间的误差推导如下。为简单起见,使用前一时刻的控制输入 u(·|k - 1) 和参数向量 w(·|k - 1)。(这块不太懂,没推出来)
通过最小化式(22)在预测范围内的绝对值,可以得到最优参数向量w∗(·|k)。
约束(23b)是用来保证近似是正定的,约束(23c)是为了稳定性而定义的。
(2)生成控制策略u(k)
三个阶段的最优权重为w*1、w*2和w*3
对于入口阶段和出口阶段
由定理1可知,当触发条件E1不满足时,逼近误差是有界的。
否则,近似误差大于界限。
也就是说,近似值不能覆盖真实的成本函数。
然后应该更新参数向量。 ρ是预测误差阈值,对路径规划的优化性能有很大影响。如果 ρ 太大,参数向量不能立即更新,优化性能会很差。如果 ρ 太小,可能会导致 Zeno 现象。
除了预测误差外,当预测范围内存在多个预期点或需要调整约束条件时,也需要更新参数向量。相应地设计了另外两个触发条件。
根据备注 1,预测范围内可能存在多个预期点。在图5中,所有预测状态ξ(·|k-1)在k-1时刻都属于状态集χi,但在下一个时刻k,预测状态将进入下一个状态集χi+1。
这意味着与 k − 1 相比,必须在 k 处考虑一个新的预期点。因此必须执行优化问题(23)并且 k 是触发时刻。在时间 k + 1,预测范围中涉及两个预期点,但是,它们与时间 k 相同。所以优化问题(23)不会被执行。具体来说,在k+z和k+z+1时刻,虽然期望点个数不变,但由于期望点不同,优化问题(23)仍然需要进行。
触发条件E2下的触发瞬间为:
当障碍物车辆第一次出现在检测范围内,或者最后一个障碍物车辆离开检测范围时,虽然期望点的状态不变,但需要调整加速度约束。从而触发时刻如下:
为了提高效率,优化问题 (23) 在特定时刻触发。为了有效性和安全性,优化问题(24)或(25)在每个时刻都被实施。
综上所述
MPADP 算法概括为以下步骤:
①初始化UGV和OBJ(障碍车)位置,速度,姿态,令k=0;
②检测UGV和障碍车的位置,确定期望点的状态和相应的约束条件;
③如果k是E1,E2或E3的触发时刻,求解优化问题(23)得到参数向量。否则,进行下一步。
④解决优化问题 (24) 或 (25) 以确定控制策略。
⑤让 k = k + 1 并返回到②;
五.仿真
本文使用时间触发 MPADP 方法进行仿真作为比较。时间触发和事件触发MPADP方法均在PC机和专用计算服务器上进行了仿真。此外,还介绍了时间触发和事件触发 SPSO2011-GM 方法的比较模拟。列举了5种场景,请参考原文,以下为事件触发机制和时间触发机制的仿真对比:
表IV给出了事件触发MPADP的触发数和整体求解数。触发次数不超过整个求解瞬间的20%。本文将仿真的运行时间称为“计算时间”。
图 23 显示了事件触发 MPADP 和时间触发 MPADP 在 PC 和具有英特尔酷睿 i7-7820X CPU 的特殊计算服务器上的计算时间比较。服务器运行内存32GB,安装2080超级GPU。显然,减少了事件触发机制中的计算负担。这证明选择的触发条件是合理的,事件触发的MPADP更有效。服务器端计算时间比PC端少很多,可以验证实时应用。
如图。如图 6-22 所示,事件触发 MPADP 和时间触发 MPADP 中的最优路径非常相似。它们都可以成功避免与 OBV 和道路边界的碰撞。
因此,事件触发的 MPADP 可以大大减少计算时间而不会失去有效性。五种情况下加速度变化率Δa的对比图在图 24 中,蓝线代表时间触发机制的 Δa,红线代表事件触发机制。黑色虚线是加速度增量约束。可见两种方法中的Δa均满足约束条件,从而保证了UGV的舒适性。