论文阅读《HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching》

CV科研随想录

已于 2023-12-25 14:26:18 修改

阅读量3.5k

点赞数 4

分类专栏： CV顶会(刊)论文阅读文章标签：深度学习计算机视觉

于 2022-04-04 21:37:27 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/123944066

版权

CV顶会(刊)论文阅读专栏收录该内容

59 篇文章 28 订阅

订阅专栏

论文地址：https://arxiv.org/abs/2007.12140v2

背景

本文提出一种不需要构建代价体来进行立体匹配的方法，通过多分辨率初始化、可微的传播过程与warp机制来实现视差预测。此外基于倾斜窗口的假设来提升几何warp与上采样操作的精度；创新点如下：

提出一种高效的多分辨率初始化步骤，能够使用学习到的特征计算高分辨率匹配；
基于倾斜窗口假设与学习到的特征进行视差传播；

模型架构

在这里插入图片描述
模型大致内容如下：先使用一个紧凑的U-Net结构提取左右视图的多尺度特征，在多尺度上构建基于平行窗口的视差假设层，然后基于 $L_1$ 距离得到初始视差图；在得到初始视差图的前提下使用视差传播来得到更精确的视差图；

Tile Hypothesis

使用Tile Hypothesis来存储一个title的信息，其包含几何约束信息与可学习的特征信息，如式1所示：
$\mathbf{h}=[\underbrace{d, d_{x}, d_{y}}_{\text {plane }}, \underbrace{\mathbf{p}}_{\text {descriptor }}]\tag1$
其中 $d$ 为title的视差， $d_x、d_y$ 为该title内视差的梯度，用这三个量可以表示一个title平面； $p$ 为特征描述符，是一个可学习的参数，用于表示title的特征向量，通过网络学习可以将学习到的附加信息叠加到title中；模型的目标是为对title的视差进行调优，获得最终的视差图；

特征提取模块

首先使用U-Net得到多尺度的特征图 $\mathcal{E}=\left\{e_{0}, \ldots e_{M}\right\}$ ，其中 $e_l$ 表示第 $l$ 层的特征图，其中 $l\in 0,...M$ ， $e_0$ 表示原始分辨率大小的特征图， $e_M$ 表示原图下采样 $2^{M}$ 倍的特征图， $e_{l,x,y}$ 表示 $e_l$ 特征图中 $(x, y)$ 点的特征向量；

初始化

初始化的过程包含在所有分辨率上初始化视差 $d^{init}$ 与特征描述子 $P^{init}$ ，经过初始化会得到 $M + 1$ 个基于平行视差窗口的 tile Hypothesis： $h^{init}=[d^{init}, 0, 0, p^{init}]$

视差初始化

对于所有分辨率的左视图的特征图，使用 $4\times 4$ 步长的CNN对特征图 $e^L_l$ 处理后得 $\frac{1}{4}h\times \frac{1}{4}w$ 的匹配特征图 $\tilde{e}^L_l$ ；对所有分辨率的右视图的特征图使用 $4\times 1$ 步长的CNN进行特征提取后得 $\frac{1}{4}h\times w$ 尺寸的匹配特征图 $\tilde{e}^R_l$ ；在卷积层后面后跟随一个 ReLU层与 $1\times 1$ 的卷积层；由此得到 $\tilde{\mathcal{E^L}}=\left\{\tilde{\mathbf{e}}^L_{0}, \ldots, \tilde{\mathbf{e}}^L_{M}\right\}$ 与 $\tilde{\mathcal{E^R}}=\left\{\tilde{\mathbf{e}}^R_{0}, \ldots, \tilde{\mathbf{e}}^R_{M}\right\}$ ，此时左右匹配特征图的尺寸不同（左视图的匹配特征图的宽度为右匹配特征图的 $\frac{1}{4}$ ）
初始化匹配代价为：
使用匹配特征 $\tilde{\mathcal{E^L}}、\tilde{\mathcal{E^R}}$ 求初始代价体如式2所示：
$\varrho(l, x, y, d)=\left\|\tilde{\mathbf{e}}_{l, x, y}^{L}-\tilde{\mathbf{e}}_{l, 4 x-d, y}^{R}\right\|_{1}\tag2$
因为右视图的宽度是左视图的4倍，因此右视图的索引下标为 $4 x - d$ 。
初始的视差：如式3所示：
$d_{l, x, y}^{\text {init }}=\operatorname{argmin}_{d \in[0, D]} \varrho(l, x, y, d)\tag3$
此外，尽管初始化阶段所有 patch 都计算匹配代价，但不需要存储代价体。测试阶段只需要提取最佳匹配的位置，这可以利用快速存储器(例如，GPU上的共享存储器)非常高效地完成。因此，不需要存储和处理3D匹配代价体；
初始的描述子：如式4所示：
$\mathbf{p}_{l, x, y}^{\text {init }}=\mathcal{D}\left(\varrho\left(d_{l, x, y}^{\text {init }}\right), \tilde{\mathbf{e}}_{l, x, y}^{L} ; \boldsymbol{\theta}_{\mathcal{D}_{l}}\right)\tag4$
其中，初始描述子实际上使用一个多层感知机预测而来，感知机的输入为某像素点的初始深度对应的代价值 $\varrho(l, x, y, d_{init})$ 与该层对应的匹配特征图在该点的特征向量 $\tilde{\mathbf{e}}_{l, x, y}^{L}$ ，而 $\boldsymbol{\theta}_{\mathcal{D}_{l}}$ 表示MLP的参数；

传播

传播过程是以该层初始化的Tile Hypothesis与上一层预测的Tile Hypothesis上采样为输入，基于空间传播和信息融合来得到更精细化的Tile Hypothesis，过程中将右视图的特征warp到左视图用于求输入Tile Hypothesis的残差；此外，额外引入了一个置信度参数，用于融合上一层上采样而来的Tile Hypothesis与本层初始化的Tile Hypothesis；

Local Cost Volume：
warping 操作是基于第 $l$ 层的tiles Hypothesis将 $e^R_l$ 的特征图warp到左视图，然后与 $e^L_l$ 求损失。以此来衡量该层的tiles Hypothesis 的准确性（自监督损失）；在初始化阶段，每个 title Hypothesis 代表了一个 $4\times 4$ 窗口内的信息（匹配特征图是有原始特征图以stride为 $4\times 4$ 下采样而来），根据中心点的视差 $d$ 与梯度 $d_x 、d_y$ 可以计算出窗口内其余点的视差值；利用一个窗口内16个点的16个视差值，可以将 $e^R_l$ 中对应16个点的特征图warp到左视图并与 $e^R_l$ 对应点特征求误差，从而得到16个匹配误差值；
在这里插入图片描述
在title plane求邻域点的视差：tiles Hypothesis中每个像素点（黑点）对应原始特征图 $e^L_l$ 每个 $4\times 4$ 窗口，给定中心点的视差d与梯度 $d_x 、d_y$ 求 $e^L_l$ 的 $4\times 4$ 窗口内其余点的的视差如式5所示：
$\mathbf{d}_{i, j}^{\prime}=d+(i-1.5) d_{x}+(j-1.5) d_{y}\tag5$
其中 $\in\{0, 1, 2, 3\}$

故每个窗口内的warp后的匹配误差向量 $\boldsymbol{\phi}\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}\right)\in{R^{16}}$ 如式6所示：
$\boldsymbol{\phi}\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}\right)=\left[c_{0,0}, c_{0,1}, \ldots, c_{0,3}, c_{1,0} \ldots c_{3,3}\right]\\\\ where \ \ \ \ c_{i, j}=\left\|\mathbf{e}_{l, 4 x+i, 4 y+j}^{L}-\mathbf{e}_{l, 4 x+i-\mathbf{d}^{\prime}{ }_{i, j}, 4 y+j}^{R}\right\|_{1} \tag6$

式6表明匹配误差向量是在 $e^L_{l}$ 与 $e^R_{l}$ 上的特征匹配计算得来的，其中 $\mathbf{e}_{l, 4 x+i-\mathbf{d}^{\prime}{ }_{i, j}, 4 y+j}^{R}$ 就是右视图根据根据每个像素预测的视差值warp回左视图的特征向量；

文中同时考虑了 $\boldsymbol{\phi}\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}-1\right)$ 与 $\boldsymbol{\phi}\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}+1\right)$ ，即局部代价体（Local Cost Volume）为 { $\boldsymbol{\phi}\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}-1\right)$ 、 $\boldsymbol{\phi}\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}\right)$ 、 $\boldsymbol{\phi}\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}+1\right)$ }

Tile Update Prediction：
结合Tile Hypothesis: $h_{l, x, y}$ 与 Local Cost Volume 一起构成了更新 Tile Hypothesis 的 CNN 模型的输入：
$\mathbf{a}_{l, x, y}=[\mathbf{h}_{l, x, y}, \underbrace{\phi\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}-\mathbf{1}\right), \phi\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}\right), \phi\left(\mathbf{e}_{l}, \mathbf{d}^{\prime}+\mathbf{1}\right)}_{\text {local cost volume }}]\tag7$
这一步将每个像素的 n 个 Tile Hypothesis 作为输入，并预测 Tile Hypothesis 的更新残差值加上每个Tile Hypothesis 的权重 $w^n$ ，表明这个Tile Hypothesis 的置信度。使用CNN模块 $\mathcal{U}_{l}$ 来预测n个 Tile Hypothesis 的残差与置信度：
$(\underbrace{\Delta \mathbf{h}_{l}^{1}, w^{1}, \ldots, \Delta \mathbf{h}_{l}^{n}, w^{n}}_{\text {hypotheses updates }})=\mathcal{U}_{l}\left(\mathbf{a}_{l}^{1}, \ldots, \mathbf{a}_{l}^{n} ; \boldsymbol{\theta}_{\mathcal{U}_{l}}\right) .\tag8$
其中 $w^{i}\in R$ 为每个 title hypothesis的权重；其中 n 代表有每个像素点有几个 Tile Hypothesis :
当 $l = M$ 时（最低分辨率层），每个像素点只有初始化的 Tile Hypothesis，故 $n = 1$ 。通过预测的 title hypothesis 残差值与原来的title hypothesis 得到更新后的title hypothesis，再对其进行2倍上采样得到下一层的 title hypothesis。在这一步，因此，视差 d 使用title hypothesis的平面方程进行上采样，而title hypothesis的其余部分dx、dy和p使用最近邻采样进行上采样。
当 $l = M - 1$ 时 $n = 2$ ，一个是 $l = M - 1$ 层初始化得到的 Tile Hypothesis ，一个是上个state的Tile Hypothesis经过上采样得到的 Tile Hypothesis；此时使用 $w_i$ 来选择并更新置信度最高的 Tile Hypothesis ；然后重复此过程，直到得到原始分辨率的视差图，从而实现对视差的精细化；

损失函数

损失函数包含一个约束初始视差估计的对比损失和一个约束tile视差参数的损失（既约束tile中的视差，又约束tile中的视差梯度，还涉及置信度的约束）

Initialization Loss

Ground True是亚像素精度的视差值，但是初始化视差是用整数表示
$\psi(d)=(d-\lfloor d\rfloor) \varrho(\lfloor d\rfloor+1)+(\lfloor d\rfloor+1-d) \varrho(\lfloor d\rfloor)\tag9$

Initialization Loss 目标是U-Net得到一个较好的特征 $\mathcal{E}$ 使得初始初始代价体在ground true处的代价最小而在其它 $d$ 的代价较大，为此设计了一个对比损失：
$L^{\mathrm{init}}\left(d^{\mathrm{gt}}, d^{\mathrm{nm}}\right)=\psi\left(d^{\mathrm{gt}}\right)+\max \left(\beta-\psi\left(d^{\mathrm{nm}}\right), 0\right)\tag{10}$
其中 $\beta >0$ 是个边界， $d^{gt}$ 是标签视差， $d^{mn}$ 如式11所示：
$d^{\mathrm{nm}}=\operatorname{argmin}_{d \in[0, D] /\left\{d: d \in\left[d^{\mathrm{gt}}-1.5, d^{\mathrm{gt}}+1.5\right]\right\}} \varrho(d)\tag{11}$
$d^{mn}$ 表示在不匹配的视差值 $d$ 产生的最低代价， $\in[0, D] /\{d: d \in [d^{\mathrm{gt}}-1.5, d^{\mathrm{gt}}+1.5]$ 表示 $d\in [0, d^{\mathrm{gt}}-1.5]\cup [d^{\mathrm{gt}}+1.5, D]$ 也就是非最优视差d；该损失将 $d = g ro u n d t r u e$ 时的初始代价推向0，以及驱使非最优视差d的匹配代价推向一定的边界（有点像传统算法中的最优和次优拉开一定的距离，形成单峰损失）。要么使用一个随机的非最优视差匹配代价作为负样本，要么使用所有的非最优视差匹配代价作为负样本。

Propagation Loss

在传播过程中，对 tile 的几何约束信息和置信度设置损失函数：
$L^{\text {prop }}\left(d, d_{x}, d_{y}\right)=\min \left(\rho\left(d^{\text {diff }}\right), A\right)\tag{12}$

其中 $\rho(.)$ 表示一个平滑 $L_1$ 损失，且 $d^{\mathrm{diff}}=d^{\mathrm{gt}}-\hat{d}$

此外，还对倾斜表面设置损失，如式13所示：
$L^{\mathrm{slant}}\left(d_{x}, d_{y}\right)=\left\|\begin{array}{c} d_{x}^{\mathrm{gt}}-d_{x} \\ d_{y}^{\mathrm{gt}}-d_{y} \end{array}\right\|_{1} \chi_{\left|d^{\mathrm{diff}}\right|<B}\tag{13}$
其中 $\chi$ 是一个指示函数，当条件满足时，它的值为1，否则为0。

为了监督置信度，当预测的视差与 $d_{gt}$ 距离小于 $C_1$ 增加置信度，而距离大于 $C_2$ 时应该减小置信度，如式14所示：
$L^{\mathrm{w}}(w)=\max (1-w, 0) \chi_{| d^{\text {diff }}|<C_{1}}+\max (w, 0) \chi_{|d^{\text {diff }}|>C_{2}}\tag{14}$

Global Loss

总体的损失函数如式15所示：
$L_{total} = \sum_{l, x, y} \lambda^{\text {init }} L_{l}^{\text {init }}+\lambda^{\text {prop }} L_{l}^{\text {prop }}+\lambda^{\text {slant }} L_{l}^{\text {slant }}+\lambda^{\mathrm{w}} L_{l}^{\mathrm{w}}\tag{15}$

实验结果

在这里插入图片描述

CV科研随想录

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文阅读《HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching》

论文地址：https://arxiv.org/abs/2007.12140v2背景本文不是基于构建代价体来进行立体匹配，而是通过多分辨率初始化、可微的传播过程与warp机制来实现视差预测。本文基于倾斜窗口的假设，从而提升几何warp与上采样操作的精度；创新点如下：提出一种高效的多分辨率初始化步骤，能够使用学习到的特征计算高分辨率匹配；基于倾斜窗口假设与学习到的特征进行视差传播；模型架构模型大致内容如下：先使用一个紧凑的U-Net结构提取左右视图的多尺度特征，在多尺度上构建基于平
复制链接

扫一扫