文献学习记录|事件触发模型预测自适应动态编程用于无人驾驶地面车辆的道路交叉口路径规划

本文仅用于学习记录,如有错误,请各位大佬斧正。

Event-Triggered Model Predictive Adaptive Dynamic Programming for Road Intersection Path Planning of Unmanned Ground Vehicle

Chaofang Hu , Lingxue Zhao , and Ge Qu

一.摘要

        摘要:本文提出了一种事件触发的模型预测自适应动态规划(MPADP)算法,用于UGV在道路交叉口的路径规划。按照自适应动态规划(ADP)的批评者方案,成本函数的近似和控制策略的生成被结合起来,形成MPADP。ADP的无限期成本函数叠加在模型预测控制(MPC)的预测期上,然后将无限期成本函数转换为MPADP中的有限期叠加成本函数。通过最小化预测水平线内的近似误差,提高了近似精度。考虑到能源消耗的限制,我们设计了基于成本函数近似不匹配的事件触发机制。设计了三种触发条件,并证明了近似误差的相应约束性。仿真结果说明了事件触发MPADP方法在道路交叉口路径规划中应用的有效性、效率和可行性。

        道路交叉口在道路系统占比少,但是在此发生的交通事故占比很高。现有的道路交叉口研究大多集中在车辆调度上,主要针对交通流的有效性和顺畅性。然而,忽略了车辆本身的运动特性。遇到极端情况时,指定的路径和速度无法保证不碰撞。因此在交叉点路径规划中有必要考虑运动特性和道路条件。

二.本文贡献

        本文将模型预测自适应动态规划方法(MPADP)引入用于道路交叉口的UGV路径规划:

(1)综合考虑速度,防撞,交规等约束,采用MPADP策略进行道路交叉口路径规划。

(2)设计了三个事件触发条件进行路径规划,减轻了计算负担。

(3)与传统事件触发机制不同,控制策略时时刻刻产生,但只有满足触发条件才会更新逼近结果。可保证路径规划的有效性和效率。

三.问题描述与建模

1.道路模型:

     每条车道宽为b,转弯处为四分之一圆弧。UGV从A的右车道转入H的右车道,其余车辆为障碍物车辆,简称OBJ。将此路口分为三个阶段,入口(R1->R2,预期点R2),转弯口(R2-R3,预期点R3),出口(R3->R4,预期点R4)。主要目标是为 UGV 在道路交叉口找到一条具有适当速度的最佳无碰撞路径。

2.车辆模型:     

       本文利用UGV运动学模型进行路径规划,如图2所示。车辆由前轮胎转向,后轮胎转向角不变。图中XOY为惯性坐标系; x 和 y 分别表示重心 (CG) 在 X 和 Y 轴上的投影; φ为偏航角; δf 为前轮胎转向角; v 是CG的速度; a是加速度; lb为UGV的宽度; lf 和 lr 分别是前后轮胎的轴距。

 即车辆运动学模型为

 离散化后

状态变量为 ξ = [x, y, v, ϕ]T,控制输入为 u = [a, δf ]T。因此,离散模型被概括为

 四.道路交叉口路径规划

 整体事件触发的 MPADP 策略如图 3 所示。

Critic 的主要目标是通过使用参数逼近器来精确估计Cost Function;

Actor根据不同约束,利用近似结果来制定路径规划的优化问题;

通过求解优化问题生成控制策略Uk;

在此基础上,MPADP与事件触发机制相结合。一旦逼近精度低于阈值,或者路况发生变化,就需要更新逼近结果。否则,将保留参数以减少 critic 的计算量。

1.Cost Function & 约束条件

原始Cost Function  

 转弯时,要满足以下约束:

(1)状态约束

ξ(k) ∈ χi,i=123,分别代表入口、交叉口和出口阶段的状态集。UGV在不同时刻的状态应属于当前所在的状态集

(2)加速度约束

当障碍物车辆存在于检测范围ddet内时,加速度的下限和上限分别变为amin,det和amax,det。 dq(k)为k时刻UGV与第q辆障碍车的距离

转向角约束:

(3)控制输入增量约束 

防止控制输入变化巨大,导致车辆舒适性下降,控制输入增量约束如下:

(4)道路防撞约束

       ➀ 表示 UGV 与交叉路口的外轮廓发生碰撞。为避免碰撞,UGV 的左前点和左后点与 O 的距离应始终保持不超过 R + b。 ➁ 和 ➂ 是 UGV 与内部轮廓碰撞的情况。由于没有指定碰撞点,因此很难弄清楚碰撞点与O之间的数学关系。

       基本思想是在矩形上找到距离圆弧最近的点。如果点到 O 的距离小于 R,则矩形与圆弧重叠。道路防撞约束可以用非线性函数fout和fin表示。

 

(5)障碍车避让约束

当UGV接近或穿越路口时,安全距离较短,表示为ds。 UGV驶出路口时,安全距离为dl,大于ds。

      

 2.MPADP法

(1)成本函数的逼近

ADP的无限范围成本函数可以定义为:

然后,V(k)可以用两个相邻的时刻表示

有限水平堆叠成本函数 J(k) 为: 

 

 其中 V (k + i|k) 表示在时间 k 的第 i 个预测成本函数

 则

 利用Critic逼近J(k),根据(16)(18),把J(k)重写成(19)

 根据(16)(18),两个相邻预测时刻之间的误差推导如下。为简单起见,使用前一时刻的控制输入 u(·|k - 1) 和参数向量 w(·|k - 1)。(这块不太懂,没推出来)

通过最小化式(22)在预测范围内的绝对值,可以得到最优参数向量w∗(·|k)。

约束(23b)是用来保证近似是正定的,约束(23c)是为了稳定性而定义的。

(2)生成控制策略u(k)

三个阶段的最优权重为w*1、w*2和w*3

对于入口阶段和出口阶段

由定理1可知,当触发条件E1不满足时,逼近误差是有界的。

否则,近似误差大于界限。

也就是说,近似值不能覆盖真实的成本函数。

然后应该更新参数向量。 ρ是预测误差阈值,对路径规划的优化性能有很大影响。如果 ρ 太大,参数向量不能立即更新,优化性能会很差。如果 ρ 太小,可能会导致 Zeno 现象。

除了预测误差外,当预测范围内存在多个预期点或需要调整约束条件时,也需要更新参数向量。相应地设计了另外两个触发条件。

根据备注 1,预测范围内可能存在多个预期点。在图5中,所有预测状态ξ(·|k-1)在k-1时刻都属于状态集χi,但在下一个时刻k,预测状态将进入下一个状态集χi+1。

这意味着与 k − 1 相比,必须在 k 处考虑一个新的预期点。因此必须执行优化问题(23)并且 k 是触发时刻。在时间 k + 1,预测范围中涉及两个预期点,但是,它们与时间 k 相同。所以优化问题(23)不会被执行。具体来说,在k+z和k+z+1时刻,虽然期望点个数不变,但由于期望点不同,优化问题(23)仍然需要进行。

触发条件E2下的触发瞬间为:

当障碍物车辆第一次出现在检测范围内,或者最后一个障碍物车辆离开检测范围时,虽然期望点的状态不变,但需要调整加速度约束。从而触发时刻如下:

 为了提高效率,优化问题 (23) 在特定时刻触发。为了有效性和安全性,优化问题(24)或(25)在每个时刻都被实施。

综上所述

MPADP 算法概括为以下步骤:

①初始化UGV和OBJ(障碍车)位置,速度,姿态,令k=0;

②检测UGV和障碍车的位置,确定期望点的状态和相应的约束条件;

③如果k是E1,E2或E3的触发时刻,求解优化问题(23)得到参数向量。否则,进行下一步。

④解决优化问题 (24) 或 (25) 以确定控制策略。

⑤让 k = k + 1 并返回到②;

五.仿真

本文使用时间触发 MPADP 方法进行仿真作为比较。时间触发和事件触发MPADP方法均在PC机和专用计算服务器上进行了仿真。此外,还介绍了时间触发和事件触发 SPSO2011-GM 方法的比较模拟。列举了5种场景,请参考原文,以下为事件触发机制和时间触发机制的仿真对比:

表IV给出了事件触发MPADP的触发数和整体求解数。触发次数不超过整个求解瞬间的20%。本文将仿真的运行时间称为“计算时间”。

图 23 显示了事件触发 MPADP 和时间触发 MPADP 在 PC 和具有英特尔酷睿 i7-7820X CPU 的特殊计算服务器上的计算时间比较。服务器运行内存32GB,安装2080超级GPU。显然,减少了事件触发机制中的计算负担。这证明选择的触发条件是合理的,事件触发的MPADP更有效。服务器端计算时间比PC端少很多,可以验证实时应用。

如图。如图 6-22 所示,事件触发 MPADP 和时间触发 MPADP 中的最优路径非常相似。它们都可以成功避免与 OBV 和道路边界的碰撞。

因此,事件触发的 MPADP 可以大大减少计算时间而不会失去有效性。五种情况下加速度变化率Δa的对比图在图 24 中,蓝线代表时间触发机制的 Δa,红线代表事件触发机制。黑色虚线是加速度增量约束。可见两种方法中的Δa均满足约束条件,从而保证了UGV的舒适性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值