Authors: Adarsh Kowdle, Christoph Rhemann, Julien Valentin, Sameh Khamis, Sean Fanello, Shahram Izadi
Link: https://arxiv.org/abs/1807.08865
Years: 2018
Credit
Novelty and Question set up
作者发现目前的立体匹配模型大部分都是参数过多的,即使使用低分辨率的cost volume也可以在保留大部分立体匹配的配对信息之余实现高效率、低时延并且节省内存的视差估计。因此作者提出StereoNet,利用孪生网络(Siamese Network)进行左右视图的特征提取,压缩cost volume的分辨率,并使用一个层次化的refine模块对视差图进行正则化和微调。
主要贡献在于:
- 采用低分辨率cost volume,能保留尽量多的匹配信息并大大减少计算耗时和内存开销
- 采用层次化微调对视差边缘等高频信息进行修复
Solutions and Details
-
总体结构
StereoNet采用Coarse-to-Refinement的方式:- 采用孪生网络提取特征,使用 K K K个下采样block进行高层特征提取
- 特征下采样之后,在低分辨率下计算cost volume,出来的shape是 H / 2 K × W / 2 K × ( D + 1 ) / 2 K {H/{2^K}}\times{W/{2^K}}\times{(D+1)}/{2^K} H/2K×W/2K×(D+1)