https://zhuanlan.zhihu.com/p/652891360
主要特点:场景和规划都是树结构,放在一起能够充分利用到multi-policy和multi-modal信息。这里的做法是planning的时候依旧保有了多模态,在planning阶段依旧考虑多模态,让planning的结果是对所有场景的最优结果。所以关键点是对场景树进行划分。
Introduction
对于交互决策,有两种主流方法:第一种是MDP和POMDP。但是MDP和POMDP的缺点是,对于多障碍物交互,计算量剧增。为了降低计算量,可以使用规则剪枝,但是剪枝的缺点是,很难设计出完美的规则去适应所有的场景。第二种是使用优化方法(contigency planning), 但contigency planning对周围障碍物的选择是一个比较大的问题。
为了解决上述问题,提出了MARC算法,结合上述两种方法。具体的,先衍生出各个场景,各个场景之间不同的地方(分叉的地方)使用分叉点,减少相同部分的计算量。然后使用Risk-aware Contingency Planning进行轨迹生成(具体使用LP和iLQR算法)。最后使用cost计算,来选择最合适的场景和轨迹。
System Overview
Policy-Conditioned ScenarioTree
使用树结构来构造scenario有天然的优势。为了避免固定规则带来的限制,使用dynamic scenario trees。首先,通过闭环前仿建立基于规则的critical scenario,然后建立数结构。
先用规则建立起sceanario,然后使用剪枝方法删除不必要的障碍物,然后使用闭环前仿(forward-simulation)建立轨迹。但是这样的方法比较死板,增加不确定性,使用FRSs (forward reachable sets) 来开环泛化场景。然后再对FRSs的结果进行闭环反馈。最后再用树结构对scenario进行整理
Risk Aware Contigency Planning
使用优化方法进行轨迹规划。Is是shared部分,Ik是各种分支,x是轨迹,u是控制信号。
在这个论文中,具体的算法为
具体的解法,使用iLQR和LP进行迭代求解
调整α的值,可以调整用户的驾驶行为是激进还是保守
Policy Evaluation
不同于别的算法,该论文对每一个sceanario和每一个trajectory都会进行evaluate