Weighted A* 改进型(1)：XDP

赛亚茂

于 2024-06-13 15:51:20 发布

阅读量646

点赞数 19

分类专栏：闲散杂记文章标签：算法概率论机器学习

本文链接：https://blog.csdn.net/shengzimao/article/details/139597269

版权

闲散杂记专栏收录该内容

24 篇文章 16 订阅

订阅专栏

本文的主要内容来自于文献[1]，总的来说这篇文献给我的感觉就是理论证明非常精妙，最后的实际效果也是提升的非常明显。

在Introduction中作者给出了一般Best first search（BFS，常用的包括A *，weighted A * ，Focal search（ $A_{\varepsilon}^{\ *}$ ），Dynamical Potential search （DPS）和 Bounded suboptimal search（BSS）等在内）的通用框架如下：

在这里插入图片描述

一般来说作为weighted A * 的改进型算法一般都能保证 $w$ -optimality，即算法所搜索到的路径代价不超过 $w C^{*}$ ，其中 $C^{*}$ 是一个optimal的路径代价。作者主要的改进在于设计了一种相比于原有启发式函数 $f (n)$ 的新的启发式函数 $\Phi(h(n),g(n))$ 用于BFS搜索，避免了open表中结点的重复查找（reopenings），并从理论上证明了该启发式函数的 $w$ -optimality性能。

在这里插入图片描述

关于为啥要减少open表中的重复查找呢？作者认为主要是在open表中进行结点的重复查找可能会导致一个大的时间复杂度 $O(N^2)$ ，尤其是当状态结点 $N$ 的个数非常大的时候，这可能会导致寻路成本的增加。

在这里插入图片描述

全文的主体思路是通过给出了一类 $\Phi(h(n),g(n))$ 函数能保证 $w$ -optimality的条件，并加以证明。说明了直接在采用这个函数的情况下，可以避免reopenings。对于 $f (n) = h (n) + w g (n)$ 来说，算法由于常权重 $w$ ，在起终时刻始终保证固定的 $w$ -optimality；而对于 $\Phi(h(n),g(n))$ ，算法同样也可以保证最终代价的 $w$ -optimality，但是在open表搜索过程中的代价却可以不为 $w$ -optimality。

$w$ -optimality的相关条件

在证明 $\Phi(h(n),g(n))$ 的 $w$ -optimality之前，作者首先证明了在finite state space中，对于任意priority function $\Phi$ 在不用re-open的情况下，采用BFS搜索都可以保证完备性(complete，即从起点start到goal如果存在路径，BFS总能找到一条合适的路径)，证明见Lemma1：

在这里插入图片描述

在说明了完备性的情况下，作者首先给出了 $\Phi(h(n),g(n))$ 函数应当具有的4条性质：
$\begin{cases} \frac{\partial \Phi}{\partial x} > 0,\frac{\partial \Phi}{\partial y} > 0\\ \frac{\partial \Phi}{\partial y} \leq \frac{\partial \Phi}{\partial x} \\ \Phi(0,wt)=\Phi(t,0)=t\\ \frac{\partial \Phi}{\partial x} + \frac{\partial \Phi}{\partial y} \leq 2 \end{cases}$
另外，作者还给出了 $\Phi$ -inequality的定义： $\Phi (h(p),g(p))\leq \Phi(0,w(h(p) + g^{*}(p)))=\Phi(h(p) + g^{*}(p),0)$ （原文中Definition 1 ）。在上面4条性质和1个定义的基础上，作者首先证明了：

（Theorem 2）对于满足性质1的函数 $\Phi$ ，在搜索过程中，如果对于每个第一次扩展的状态结点 $p$ 都有 $\Phi$ -inequality成立，那么搜索出的路径具有 $w$ -optimality性质，且没必要进行re-open（或者说re-expand）。

Proof. 首先由Lemma1，我们知道一定可以扩展出一条以代价 $g (g o a l)$ 到goal的路径，那么对于目标状态 $g o a l$ 而言，由 $\Phi$ -inequality不等式：
$\Phi(h(goal),g(goal))=\Phi(0,g(goal)) \\ \leq \Phi(0,w(h(goal)+g^{*}(goal))) \\ =\Phi(0,wg^{*}(goal))$
由于性质1说明了 $\Phi(h(n),g(n))$ 对于 $g$ 的单调递增性，因此 $\leq w g^{*}(goal)$ ，说明最后的搜索路径具有 $w$ -optimality性质。

对于这个不用re-open的说明，我实在没看懂，希望后面能有机会再看看。

下面给出Deepl机翻的结果：

因此，我们只需证明 Φ-inequality 对每个以给定优先级函数展开的状态都成立。图 4(b) 是证明这一点的高级方法。假设我们计划扩展一个状态 q，其中 p 是通往 q 的最优路径上扩展的最后一个状态。与之前一样，p 下方的蓝色点代表通往 p 的最优路径，(a) 处的曲线是该点的隔离线。根据 Φ-inequality 我们可以知道，p 在（a）点开始的隔离线之下。因此，如果搜索以最优方式从 p 移动到 q，那么 q（以及从 p 到 q 的最优路径上的所有状态）仍应位于 h 轴上 (b) 点的 h(q) + g∗(q) 分割线之下，因为最优路径不会积累任何额外的次优状态。如果这一点成立，那么总有至少一条路径（最优路径的剩余部分）可以在最优约束下达到目标，而无需重新扩展先前扩展的状态。虽然在实践中搜索可能会扩展出一条不那么理想的路径，但所探索的路径仍能保证在 Φ 允许的范围内。

因此，对于Theorem 2而言，如果我们能证明在满足某些性质的条件下，对于每个第一次扩展的状态结点 $p$ 都有 $\Phi$ -inequality成立，哪么根据Theorem 2的结论， $w$ -optimality和不需要re-open的性质就能得到满足。下面的Theorem 8给出了 $\Phi$ 所需要满足的条件：

（Theorem 8）假设BFS所采用的优先级函数 $\Phi$ 满足性质1-4，哪么对于所有的扩展结点都有 $\Phi$ -inequality成立。

Proof. 首先需要不加证明（证明见原论文）的给出以下引理作为证明条件，

Lemma 3. 对于 $p$ 的后继（descendant）结点 $q$ 而言，其在 $h$ - $g$ 坐标系下分别为 $(h (p), g (p))$ 和 $(h (q), g (p) + d (p, q))$ 。对于任意从 $p$ 到 $q$ 上位于optimal path上的中间结点 $p_1$ ，其必位于 $p$ 和 $q$ 所处的矩形对角点上，如Figure 4(b)所示。

根据原文中Definition 2中定义的最右角点 $x_r,y_r)$ ：
$\begin{cases} x_r = h(p) + \frac{d(p,q) + h (q) - h(p)}{2}\\ y_r = g(p) + \frac{d(p,q) + h (q) - h(p)}{2}\\ \end{cases}$
原文Lemma 6说明了对于从 $p$ 到 $q$ 的所有在optimal path上的状态 $s$ ，角点是使 $\Phi$ 最大的点，即： $\Phi(h(s),g(p)+d(p,s)) \leq \Phi(x_r,y_r)$ 。

另外，有Corollary 7： $\Phi(x+t,y+t)\leq \Phi(x,y) + 2t$ 。证明利用了性质4和 $\Phi$ 的Lipschitz连续性条件。

下面进入正式的论证，采用数学归纳法证明 $\Phi$ -inequality的成立：

首先Base case: 对于初始状态start，必然有 $\Phi (h(start),g(start))=\Phi(h(start) + g^{*}(start),0)$ 成立，因为 $g(start)=g^{*}(start)=0$ 。

再对于Inductive step：假设对于所有已扩展的路径（expanded paths）上的结点都有 $\Phi$ -inequality成立，并且状态 $q$ 是从open表中选出来的要扩展的下一个结点，我们需要证明结点 $q$ 满足 $\Phi$ -inequality，即： $\Phi(h(q),g(q))\leq \Phi(h(q)+g^{*}(q),0)$ 。
作为在closed表中optimal path上的， $q$ 的上一个结点 $p$ ，由递推假设满足：
$\Phi(h(p),g(p))\leq \Phi(h(p)+g^{*}(p),0) = h(p)+g^{*}(p)$ 这里必然存在一个在open表中,由 $p$ 所扩展出的successor结点 $p_x$ ，其位于从 $p$ 到 $q$ 的optimal path上，满足 $\Phi(h(q),g(q))\leq \Phi(h(p_x),g(p_x))$ 。这是因为BFS在结点扩展时会先扩展 $\Phi$ 最小的 $q$ ，而不是 $p_x$ 。令 $t = (d (p, q) + h (q) - h (p)) /2$ ，根据Lemma6有：
$\Phi(h(q),g(q))\leq \Phi(h(p_x),g(p)+d(p,p_x)) \\ \leq \Phi(h(p) + t,g(p)+t) \\ \leq \Phi(h(p),g(p))+2t \\ =\Phi(h(p),g(p)) + d(p,q)+h(q)-h(p) \\ \leq g^*(p)+h(q) + d(p,q) \\ \leq g^{*}(q) + h(q) =\Phi(g^{*}(q) + h(q),0)$ 这对 $q$ 证明了 $\Phi$ -inequality的成立，因此假设成立。

上面的Theorem2和Theorem8综合起来说明了，对于满足4条性质的 $\Phi(h(n),g(n))$ ，其能保证 $w$ -optimality和避免reopening。

XDP函数

XDP函数是一类特殊的 $\Phi$ 函数 $\Phi_{XDP}(x,y)=U$ ，其具有 $y=ax^2+bx+c$ 的二次函数形式，并且满足 $\Phi$ 的4条性质，同时经过 $(0, w U)$ 和 $(U, 0)$ 点。在 $(U, 0)$ 处的斜率为 $- 1$ 。得到：
$\begin{cases} c = wU\\ aU^2+bU+c=0 \\ 2aU + b =-1 \end{cases}$ 解算出的：
$\Phi_{XDP}(x,y)=U=\frac{y+(2w-1)x+\sqrt{(y-x)^2+4wyx}}{2w}$

参考文献

[1] Chen, J., Conditions for Avoiding Node Re-expansions in Bounded Suboptimal Search, in Proceedings of the . AAAI Conference on Artificial Intelligence. 2019, Proceedings of the . AAAI Conference on Artificial Intelligence.