SGM-Nets: Semi-global matching with neural networks

最新推荐文章于 2024-09-12 08:55:33 发布

qq_43579156

最新推荐文章于 2024-09-12 08:55:33 发布

阅读量484

点赞数

分类专栏：文献阅读文章标签：自动驾驶神经网络深度学习

本文链接：https://blog.csdn.net/qq_43579156/article/details/120782256

版权

文献阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

针对的问题

SGM的惩罚参数是通过经验方法计算得到的，难以对其进行调整，以控制视差图的平滑度。

解决方法

提出基于学习的惩罚参数估计方法SGM-Nets。输入image patch和对应的位置，即可输出三维物体结构的惩罚参数。同时惩罚参数会根据正负视差的变化而产生变化，从而可以更加有区别的表示物体结构。

同时，引入了一种损失函数，可以利用稀疏注释的视差图，比如激光传感器捕获的真值。

因此，本文贡献如下：

1.首次提出将神经网络用于SGM，并且引入了新的损失函数。

2.新的SGM参数化可以把正负视差变化分开，以便更加有区分度地表示物体结构。

3.2017年kitti数据集的SOTA

背景介绍 Semi-global matching

SGM中的能量函数定义如下：

$\sum_{x}(C(x,d^x)+\sum_{y\in N_x}P_1T[|d^x-d^y|=1]+\sum_{y \in N_x}P_2T[|d^x-d^y>1|])$

其中 $C(x,d^x)$ 代表了 $x$ 点处视差值为 $d^x$ 的匹配代价。因此，第一项代表了所有像素对视差图D的匹配代价之和。

第二项表示了x的邻域像素y对x的倾斜表面惩罚。

第三项表示了邻域像素y对x不连续视差的惩罚。 $P_2$ 通常根据图像梯度设置的，例如 $P_2 = P'_2/|I(x)-I(y)|$ ，从而可以区分出视差不连续的区域。

$T[\cdot]$ 代表了Kronecker delta函数，条件满足时，值为1；否则，值为0.

为了最小化 $E (D)$ ，在x像素点处视差为d的沿r方向的代价值 $L'_r(x,d)$ 如下所示：

在这里插入图片描述

$x_1$ 代表了前一个像素 $x_0-r)$

$c (x, d)$ 代表了像素级的匹配代价。

为了避免累加带来的巨大数值，将减去 $x_1$ 的最小路径代价。

在这里插入图片描述

那么，采用WTA的策略整合所有方向的聚合代价，得到 $x_0$ 处的视差值 $D$ 。

在这里插入图片描述

方法SGM-Net

在这里插入图片描述

在训练阶段，SGM-Net迭代训练从而最小化Path Cost和Neighbor Cost。

在测试阶段，通过SGM-Net估计 $P_1$ 与 $P_2$ ，通过SGM估计稠密视差图。

1.标准参数化

Path Cost(平滑项)

对于上述方法，获得正确视差的必要条件如下：
$L_r(x_0,d_i^{x_0})>L_r(x_0,d_{gt}^{x_0}),\qquad\forall d_i \in [0,d_{max}] \not=d_{gt}$
因此，设计了损失函数如下：

在这里插入图片描述

与softmax等损失函数相比，该损失函数更容易进行反向传播。为此，首先计算 $E_g$ 关于 $P_1$ 和 $P_2$ 的损失函数。

为此，观察下图，

在这里插入图片描述

$x_0$ 视差为 $d_5^{x_0}$ 和 $d_{gt}^5$ 的路径cost

在这里插入图片描述

其中 $\beta$ 代表了 $min_{k}L_r(x_1,k)$

把上式进行推广，则路径cost如下所示：

在这里插入图片描述

其中， $\delta d^{x_n \gets d_i^{x_0}}=\{d^{x_k}-d^{x_{k-1}} \} \qquad \forall k\in[1,n]$ 其中 $x_0$ 最终的视差为 $d^{x_0}_i$

$\gamma=\sum_{i=1}^n c(x_i,d)-min_kL(x_i,k)$ ， $\gamma$ 不包括 $P_1$ 和 $P_2$