这里写目录标题
1.《HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching》CVPR2021
术语
end-to-end learning
代价立方体
可微分
2D几何传播
翘曲机制
image tai
前向平行tile假设
leaky Relu
匹配的代价
warp
title:平面
视差
视差梯度
置信度
法线估计的结果图
resolution:分辨率
论文理解
痛点:立体匹配研究集中于:研究准确性(基于3D卷积的立体匹配网络),但是主要局限就是运算速度慢。
主要思想:
没有明确构建代价立方体,而是依赖于快速的多分辨初始化步骤,可微分的2D几何传播和翘曲机制来推断出视差假设;将image tail表示为具有学习紧凑特征表征描述符的平面块。
为了实现高度的精度,该网络不仅是在几何方面得到视差信息,而且还推断倾斜平面假设,从而允许更准确地执行几何扭曲和上采样操作。
该架构本质上是多分辨率的,允许信息跨不同级别传播。
Introduction:
下采样的成本量可以在速度和准确性之间提供一个合理的折衷。然而,对成本量进行下采样是以牺牲准确性为代价的。
最近出现的提升效率的高精度视差预估方案(未融入端对端网络):首先,使用紧凑/稀疏特征进行快速高分辨率匹配成本计算;其次,非常有效的视差优化方案,不依赖于全部成本量;第三,使用倾斜平面的迭代图像扭曲来实现高精度最小化图像差异。所有这些设计选择都是在没有明确操作全3D成本的情况下使用的。
提出HITNet: 通过将图像扭曲、空间传播和快速高分辨率初始化步骤集成到网络架构中,克服了在3D体积上操作的计算缺点,同时保持学习特征的灵活性。
方法:
首先给出tile的描述方式,类似于图片中每个点的特征,每个tile也有一个特征描述。这个描述由两部分组成,分别为表达几何信息的平面描述和通过网络学习到的特征描述。
如下,为tile的视差, [公式] 和 [公式] 分别为视差的水平梯度和竖直梯度,这三个量可以定义一个视差平面。
d x 和 d y 分 别 为 视 差 的 水 平 梯 度 和 竖 直 梯 度 , 这 三 个 量 可 以 定 义 到 一 个 视 差 平 面 d_x和d_y分别为视差的水平梯度和竖直梯度,这三个量可以定义到一个视差平面 dx和d