【笔记】自动驾驶预测与决策规划_Part3_路径与轨迹规划

0. 前言

本文主要记录课程《自动驾驶预测与决策技术》的学习过程,难免会有很多纰漏,感谢指正。
课程链接:https://www.shenlanxueyuan.com/my/course/700

  • 基于搜索的路径规划

  • 基于采样的路径规划

  • 基于优化的路径规划

1. 基于搜索的路径规划

1.1 A* 算法

A*算法是一种用于路径规划和搜索的启发式算法,基于图搜索的思想,结合了深度优先搜索(DFS)和广度优先搜索(BFS)的优点,可以找到从起点到终点的最优路径。

基本原理

A*算法通过维护一个优先队列来存储当前待探索的节点,每次从中选择一个估计总代价最小的节点进行扩展。每个节点的总代价由两个部分组成:

  • g(n): 从起点到当前节点n的实际代价。这是路径上已经发生的开销,也就是从起点出发,经过一系列已探索的节点,到达当前节点n所花费的总代价。g(n)通常根据具体问题中的距离、时间、能量消耗等进行计算。
  • h(n): 从节点n到终点的估计代价(通常使用启发式函数计算)

A*算法的核心思想是通过选择最小的f(n)来扩展节点,其中:

f ( n ) = g ( n ) + h ( n ) f(n) = g(n) + h(n) f(n)=g(n)+h(n)
启发式函数

启发式函数h(n)是关键所在,它估计从当前节点到目标节点的代价。常用的启发式函数包括:

  • 曼哈顿距离: h ( n ) = ∣ x n − x g o a l ∣ + ∣ y n − y g o a l ∣ h(n) = |x_{n} - x_{goal}| + |y_{n} - y_{goal}| h(n)=xnxgoal+ynygoal 适用于网格状地图。
  • 欧几里得距离: h ( n ) = ( x n − x g o a l ) 2 + ( y n − y g o a l ) 2 h(n) = \sqrt{(x_{n} - x_{goal})^2 + (y_{n} - y_{goal})^2} h(n)=(xnxgoal)2+(ynygoal)2

启发式函数需要满足一致性可接受性,即h(n)不会高估实际代价。

A*算法的优点在于通过启发式函数指导搜索,能够高效地找到最优路径。它在自动驾驶中的应用包括动态路径规划,避免障碍物,并实时更新路径以应对道路上的变化。

image.png

image.png

二维格点上进行 A* 算法 缺点:不满足车辆的运动学约束

image.png

1.2 Hybrid A* 算法

Hybrid含义:

  • 节点的拓展基于车辆运动学模型;
  • 代价的计算基于栅格化地图;

image.png

image.png

Hybrid A*算法的关键特性

  1. 连续空间搜索:
    • 传统A算法通常用于离散网格的搜索,例如二维网格上的路径规划。Hybrid A则在连续空间中进行搜索,允许路径规划的结果在更高的精度上表示车辆的位姿(位置和方向)。
    • 车辆的状态不仅仅包括其在网格上的位置,还包括其方向和速度等动态信息。
  2. 车辆动力学约束:
    • Hybrid A*考虑车辆的运动学和动力学约束,例如最小转弯半径、最大转向角等。这些约束使得路径规划的结果不仅是可达的,还必须是车辆能够实际执行的。
    • 在搜索过程中,Hybrid A*会基于这些约束来生成平滑的轨迹,而不仅仅是直线或折线段。

Dubins 曲线: 经典的圆弧直线法

image.png

Reeds Shepp 曲线:可以倒车 泊车主流算法。随着无图的自动驾驶,需要基于搜索,Hybrid A* 可以适用该场景。

image.png

代价计算:

g(n): 路径长度、运动学约束、道路切合程度、方向突变、压实线、逆行等(过程代价,描述已知的代价);

最短路径:

h1(n): 只考虑运动学约束,不考虑障碍物。

h2(n): 只考虑障碍物信息,通过格子去拓展,计算到终点的距离。基于经验,或者存图。

或者 leaning based huritical 。

image.png

伪代码流程:

image.png

2. 基于采样的路径规划

要求路径的一致性

2.1 Frenét Frame方法

image.png

缺点:很难约束极限道路场景下的曲率。(被参考线的曲率所欺骗)

Frenet坐标系是基于车辆的运动路径(通常称为参考路径)建立:

  1. 切向坐标 s s s: 这是沿着参考路径的距离坐标。它表示在路径上某一点距离起点的弧长,也就是路径上的累计距离。
  2. 横向坐标 l l l: 这是垂直于参考路径的距离坐标。它表示车辆当前位置偏离参考路径的横向距离,即从路径到车辆的最短距离。

2.2 Cartesian →Frenét 1D ( x , y ) (x, y) (x,y) —> ( s , l ) (s, l) (s,l)

要将笛卡尔坐标系中的位置 ( x , y ) (x, y) (x,y) 转换为 Frenet 坐标系中的 ( s , l ) (s, l) (s,l),需要将车辆在参考路径上的位置进行投影,计算出对应的弧长 ( s ) ( s ) (s) 和横向偏移 ( l ) ( l ) (l)。这个过程可以通过以下几个步骤来实现。

1. 计算 ( s ) (s) (s):找到参考线上距离 ( x , y ) (x, y) (x,y) 最近的投影点

方法 1:暴力遍历或二分查找(用于离散点形式的参考线)

  • 暴力遍历:对参考线上的每个点计算到 (x, y) 的距离,选择距离最小的点作为投影点。

    d i = ( x − x i ) 2 + ( y − y i ) 2 d_i = \sqrt{(x - x_i)^2 + (y - y_i)^2} di=(xxi)2+(yyi)2

    其中, ( ( x i , y i ) ) ( (x_i, y_i) ) ((xi,yi)) 是参考线上的一个离散点。找到最小距离 ( d i ) ( d_i ) (di) 所对应的点 ( x i , y i ) (x_i, y_i) (xi,yi),然后计算出该点对应的弧长 ( s ) (s) (s)

  • 二分查找:如果参考线是有序的,可以利用二分查找来加速寻找最近的点。

方法 2:梯度优化(用于多项式形式的参考线)

  • 如果参考线由一个多项式表示,可以使用梯度下降法来找到 ( x , y ) (x, y) (x,y) 到参考线的最短距离。设参考线方程为 ( y = f ( x ) ) ( y = f(x) ) (y=f(x)),则需要找到一个 ( x ∗ ) ( x^* ) (x),使得

d ( x ∗ ) = ( x − x ∗ ) 2 + ( y − f ( x ∗ ) ) 2 d(x^*) = \sqrt{(x - x^*)^2 + (y - f(x^*))^2} d(x)=(xx)2+(yf(x))2

使 ( d ( x ∗ ) ( d(x^*) (d(x) 最小化。可以通过迭代的方法来求解这个优化问题,最终得到对应的 ( x ∗ ) ( x^*) (x) ( y ∗ = f ( x ∗ ) ( y^* = f(x^*) (y=f(x)

  • 一旦找到最近点 ( x ∗ , y ∗ ) (x^*, y^*) (x,y),可以计算出对应的弧长 ( s ) ( s ) (s),这通常可以通过数值积分计算,也可以根据预先计算的参考路径上的弧长来直接查表得到。

2. 计算 ( l ) ( l ) (l):使用三角形向量关系

找到最近的投影点后,计算横向偏移 ( l ) ( l ) (l)

  • 向量定义

    • r ( s ) \mathbf{r}(s) r(s) 是参考线上点 ( s ) (s) (s) 处的坐标向量。
    • p ( x , y ) \mathbf{p}(x, y) p(x,y) 是车辆当前位置的坐标向量。
    • n ( s ) \mathbf{n}(s) n(s) 是参考线上 ( s ) (s) (s) 处的法向量。
  • 横向位移 ( l ) ( l ) (l) 的计算:

    通过向量的点积可以计算出横向位移 ( l ) ( l ) (l)

l = ( p − r ( s ) ) ⋅ n ( s ) l = (\mathbf{p} - \mathbf{r}(s)) \cdot \mathbf{n}(s) l=(pr(s))n(s)

其中, n ( s ) \mathbf{n}(s) n(s) 是垂直于参考线在 ( s ) ( s) (s) 处的法向量。如果法向量朝向参考线左侧,那么 ( l ) ( l ) (l) 为正,反之为负。

核心步骤总结

  1. ( s ) ( s ) (s):找到离车辆位置 ( x , y ) (x, y) (x,y)最近的参考线点,这可以通过暴力搜索或优化方法实现。
  2. ( l ) ( l ) (l):通过计算车辆位置和参考线投影点的法向量点积,求得横向偏移 ( l ) ( l ) (l)

实际应用中的注意事项

  • 参考线左侧、右侧方向不一致:需要注意法向量的方向。一般通过约定参考线法向量方向或使用方向向量进行修正,确保在 Frenet 坐标系中,左侧偏移为正,右侧偏移为负。
  • 参考线的光滑性:如果参考线不是光滑的,则可能需要对参考线进行平滑处理,以确保计算结果的精度和稳定性。

image.png

求解S 代码:EPSILON/core/common/src/common/lane/lane.cc

ErrorType Lane::GetArcLengthByVecPosition(const Vecf<LaneDim>& vec_position,
                                          decimal_t* arc_length) // 寻找距离自车最近的点
ErrorType Lane::GetArcLengthByVecPositionWithInitialGuess( const Vecf<LaneDim>& vec_position, const decimal_t& initial_guess, decimal_t* arc_length) //牛顿法来近似计算曲线长度

image.png

2.3 Cartesian →Frenét 3D

image.png

Frenét → Cartesian 3D

image.png

参考链接:
https://blog.csdn.net/qq_23981335/article/details/102832823
https://blog.csdn.net/AdamShan/article/details/80779615

2.4 贝尔曼Bellman最优性原理

贝尔曼最优原理(Bellman’s Principle of Optimality)是动态规划(Dynamic Programming)中的核心思想之一。它是由美国数学家理查德·贝尔曼(Richard Bellman)提出的,用于解决多阶段决策问题。它的核心思想是,无论过程过去的状态和决策如何,对前面的决策所形成的状态而言,余下的决策必须构成最优策略。这个原理可以将一个复杂的问题分解为子问题,通过递归地解决这些子问题来找到最优解。

贝尔曼最优原理的定义

贝尔曼最优原理可以表述为:

一个问题的最优策略具备这样的性质:无论初始状态及初始决策如何,余下的决策必须构成最优策略,即从当前状态开始的决策序列是问题的最优解。

换句话说,假设一个问题可以分解为多个阶段,每个阶段的决策都会影响后续阶段的状态。贝尔曼最优原理指出,如果我们已经知道某个阶段之后的决策序列是最优的,那么在之前阶段的决策也必须是最优的,以确保整个决策序列是最优的。

形式化描述

假设我们有一个决策问题,它可以分为若干阶段。每个阶段的状态可以表示为 ( s ) ( s ) (s),在每个状态 ( s ) ( s ) (s) 下,可以选择一个决策 ( a ) ( a ) (a),该决策会带来一个即时奖励 ( r ( s , a ) ( r(s, a) (r(s,a)),并将系统转移到下一个状态 ( s ′ ) ( s' ) (s)

( V ( s ) ) (V(s)) (V(s)) 表示从状态 ( s ) ( s) (s)开始并且遵循最优策略所能获得的最大期望收益。那么贝尔曼最优原理的递推公式(贝尔曼方程)可以表示为:

V ( s ) = max ⁡ a [ r ( s , a ) + γ V ( s ′ ) ] V(s) = \max_a \left[ r(s, a) + \gamma V(s') \right] V(s)=amax[r(s,a)+γV(s)]

其中:

  • ( max ⁡ a ) (\max_a ) (maxa) 表示在所有可能的行动 ( a ) ( a) (a) 中选择使得收益最大的那个行动。
  • ( r ( s , a ) ) ( r(s, a) ) (r(s,a)) 是在状态 ( s ) (s) (s) 采取行动 ( a ) (a) (a) 所获得的即时奖励。
  • ( γ ) ( \gamma) (γ) 是折扣因子,用于表示未来收益的重要性。
  • ( s ′ ) ( s' ) (s) 是在状态 ( s ) ( s ) (s) 采取行动 ( a ) ( a ) (a) 后到达的下一个状态。

这个公式表示,从状态 ( s ) (s) (s) 开始的最优价值 ( V ( s ) ) (V(s)) (V(s)) 是选择一个最优行动 ( a ) ( a ) (a) ,使得当前的即时奖励和未来各阶段的最优价值(考虑到折扣因子)之和最大。

贝尔曼最优原理的优势

  • 递归结构:贝尔曼方程提供了一个递归结构,允许我们通过逐步求解子问题来解决复杂的决策问题。
  • 最优性保证:遵循贝尔曼最优原理的策略确保了最终解是全局最优的,而不是局部最优。

贝尔曼方程 时间一致性
V ( t , k t ) = max ⁡ c t [ f ( t , k t , c t ) + V ( t + 1 , g ( t , k t , c t ) ) ] V(t, k_t) = \max_{c_t} \left[ f(t, k_t, c_t) + V(t + 1, g(t, k_t, c_t)) \right] V(t,kt)=ctmax[f(t,kt,ct)+V(t+1,g(t,kt,ct))]
这里的 ( V ( t , k t ) ) ( V(t, k_t)) (V(t,kt)) 是在时间 ( t ) ( t ) (t) 和状态 ( k t ) ( k_t) (kt) 下的最优价值函数。方程表明,最优决策是在当前时间 ( t ) ( t ) (t) 选择一个最优的控制 KaTeX parse error: Can't use function '\)' in math mode at position 7: ( c_t \̲)̲ ,使得当前的收益和下一步的最优价值之和最大。

  • 轨迹的时间一致性
    在轨迹规划中,为了确保每一步规划的轨迹是连续且光滑的,需要遵循之前计算出的轨迹的剩余部分,确保时间一致性。

  • 路径对比
    图中展示了两条不同时间步长下的轨迹规划( ( Δ T a ) ( \Delta T_a ) (ΔTa) 和 ( Δ T b ) \Delta T_b ) ΔTb) )。这反映了在不同的时间尺度上,基于贝尔曼最优原理规划出的路径,如何在每个阶段选择最优的路径。
    image.png

符合Bellman最优性 --> 解决最优控制问题

image.png

2.5 高速轨迹采样——横向

高速——横向运动相比于纵向运动相对幅度非常小,近似横纵向解耦,横纵向可独立计算。

image.png
image.png

2.6 高速轨迹采样——纵向

image.png
image.png
image.png

2.7 低速轨迹规划——横向

低速——横向运动和纵向运动可比,而车辆有运动学约束,横纵向解耦会忽略运动学约束。

沿 S 采样。

image.png

横纵向采样轨迹结合以及代价评估

高速:横纵向解耦 s ( t ) / d ( t ) s(t)/d(t) s(t)/d(t)

低速:耦合 s ( t ) d ( s ) s(t)d(s) s(t)d(s)

如何确保曲率符合要求: 大曲率要额外反投。 高低速、大小曲率。

image.png

2.8 总结

整体流程:

image.png

简单示例:

image.png

相关参考材料:

3. 基于优化的路径规划

3.1 以百度Apollo EM planner为例

image.png
整体框架:

image.png

3.2 M-Step DP Path

路径:如何在 S L 坐标系下生成一条path,且满足一定的约束。

image.png

以向下绕行为例:

image.png

如果决策可以判断需要向下绕行 --> 可得到避障的上下界, Lower bound ≤ L(s) ≤ Upper bound --> Cost(f)

按照其他cost function 优化求解轨迹。

避障问题 --> 导致非凸 --> DP --> 初始解 --> QP 求解

避障问题 --> 如果可得到避障的上下界 --> 改为 cost function --> QP 求解

image.png

image.png

M-Step QP Path ——修正DP的path

image.png
image.png

对自车碰撞处理,自车前角点做映射。当 θ \theta θ 很小时,近似等于 s i n ( θ ) sin(\theta) sin(θ) , 再近似角度的抬高距离,f’(s)。

image.png
纵向 非凸,可加速、减速。一般需要用DP搜索,克服非凸性。
image.png

3.3 M-Step DP Speed Optimizerp

image.png
image.png

M-Step QP Speed Optimizer ——使得DP生成的分段线性速度初值满足动态要求

image.png
image.png
image.png

总结
DP+QP

  • DP:生成粗解和凸空间
  • QP:在凸空间求解
  • 缺点:窄道会车场景

EM planner 参考:
https://arxiv.org/pdf/1807.08048.pdf
https://gitcode.com/ApolloAuto/apollo/tree/master/modules/planning?utm_source=csdn_github_accelerator&isLogin=1
https://blog.csdn.net/qq_39805362/article/details/128850317
https://blog.csdn.net/qq_41667348/article/details/125708616

<think>好的,我现在需要帮助用户了解自动驾驶决策模块的功能和作用。首先,用户已经提供了之前的对话历史,其中我详细介绍了决策模块的核心功能、应用场景和技术实现。用户现在明确提到想了解“自动驾驶决策模块的功能介绍”,并且已经参考了站内的两篇引用文献。 首先,我应该回顾之前的回答,确保这次回答的结构和内容保持一致,但可能需要更聚焦在功能和作用上,而不是应用场景和技术细节。用户可能希望得到更简洁明了的概述,但又不失专业性。 接下来,我需要结合用户提供的引用内容。引用[1]提到决策规划模块相当于人类驾驶员的大脑,连接上游的感知、预测模块和下游的控制模块。引用[2]强调了预测决策中的作用,帮助系统基于未来变化做出反应。因此,在回答中需要突出决策模块的桥梁作用,以及它如何整合多源信息进行动态决策。 用户之前的回答中提到了场景管理、状态选择和行为决策三个核心功能,还有分层架构和多模态数据融合。这次可能需要更系统地分类功能,例如环境理解、行为决策轨迹规划、安全机制等,并强调每个部分的具体作用。 另外,用户可能希望了解这些功能如何协同工作,以及它们在自动驾驶中的实际应用。比如,在复杂交通场景下,决策模块如何处理动态障碍物,如何平衡安全和效率,以及如何适应不同的驾驶场景(如高速公路vs城市道路)。 需要注意使用中文,并且按照用户的要求,行内公式用$...$,独立公式用$$...$$。同时,生成的相关问题需要决策模块的功能紧密相关,可能涉及技术实现、挑战、评估方法等。 最后,确保引用文献正确标注,例如在提到预测模块的作用时引用[^2],在描述决策模块作为大脑时引用[^1]。同时,检查是否有遗漏的重要功能或作用,比如实时性、鲁棒性、法规的符合等。 总结来说,回答结构应包括:模块定位、核心功能(细分点)、作用总结,然后相关问题。需要保持逻辑清晰,技术细节准确,同时避免过于冗长,确保用户能够快速抓住重点。</think>#### 自动驾驶决策模块功能介绍 --- ##### 一、模块定位核心作用 决策模块(Planning Module)是自动驾驶系统的“智能中枢”,承担**环境理解→行为决策轨迹生成**的核心链路,其作用类似人类驾驶员的大脑[^1]。在技术架构中,它接收感知模块(目标检测、车道线识别)、预测模块(交通参者行为预测)、定位地图数据,输出可执行的轨迹指令给控制模块(转向、制动等),构成完整的“感知-决策-执行”闭环。 --- ##### 二、核心功能分解 1. **多源信息融合场景建模** - 整合激光雷达、摄像头、V2X等多模态数据,构建动态环境模型 - 解析高精度地图信息(如车道曲率方程$y=ax^2+bx+c$),识别可行驶区域 - 通过概率模型(如贝叶斯网络)评估障碍物意图,例如: $$P(\text{cut-in}|d_{rel},v_{rel}) = \frac{1}{1+e^{-(k_1d_{rel} + k_2v_{rel})}}$$ 其中$d_{rel}$为相对距离,$v_{rel}$为相对速度[^2] 2. **行为决策逻辑** - **分层决策机制**: | 层级 | 时间尺度 | 典型决策内容 | |------------|------------|-----------------------------| | 战略层 | 10-100秒 | 全局路径规划(避开拥堵区域) | | 战术层 | 1-10秒 | 变道/超车/路口通行决策 | | 执行层 | 0.1-1秒 | 轨迹微调(横向偏移$\Delta y <0.2m$) | - **风险量化模型**: 使用代价函数综合评估决策方案: $$C_{total} = w_1 \cdot C_{safety} + w_2 \cdot C_{comfort} + w_3 \cdot C_{efficiency}$$ 其中权重$w_i$根据场景动态调整(如雨雾天气提升$w_1$权重)[^1] 3. **轨迹规划优化** - 基于多项式曲线(五次多项式常用)生成平滑轨迹: $$x(t) = a_0 + a_1t + a_2t^2 + a_3t^3 + a_4t^4 + a_5t^5$$ $$y(t) = b_0 + b_1t + b_2t^2 + b_3t^3 + b_4t^4 + b_5t^5$$ - 通过二次规划(QP)优化满足约束条件: $$\min \int_{0}^{T} \left( \frac{d^2s}{dt^2} \right)^2 dt \quad \text{s.t.} \quad v \leq v_{max}, a \leq a_{max}$$ 确保轨迹符合动力学限制[^1] 4. **安全冗余设计** - **Fallback机制**:当预测模块失效时,启用保守决策策略(如最低风险状态$s_{MRC}$) - **时空一致性校验**:对比连续周期的决策结果,检测突变异常(如轨迹曲率变化率$\Delta \kappa > 0.1m^{-1}$触发报警) - 符合ISO 21448预期功能安全(SOTIF)要求[^1] --- ##### 三、核心作用总结 1. **动态场景适配** 在复杂交通场景(如施工区、无保护左转)中,通过有限状态机(FSM)或强化学习(RL)实现决策策略自适应调整。 2. **人机协同优化** 在有人驾驶自动驾驶混合场景下,通过逆强化学习(IRL)建模人类驾驶风格,生成符合用户习惯的决策结果。 3. **系统效能平衡** 在安全、舒适、效率等多目标间实现帕累托最优,例如通过非支配排序遗传算法(NSGA-II)求解多目标优化问题。 --- ##### 相关问题 1. 如何验证决策模块在不同极端场景下的鲁棒性? 2. 决策模块中的代价函数参数应该怎样标定? 3. 自动驾驶决策系统如何处理伦理困境(例如电车难题)? 4. 深度学习在决策模块中的应用有哪些技术挑战? [^1]: 自动驾驶技术综述2:自动驾驶决策规划模块算法介绍 [^2]: 【笔记自动驾驶预测决策规划_Part1_自动驾驶决策规划简介
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值