直观感受是相当于Stereo R-CNN和IDA-3D的结合体
相较于IDA-3D,将深度估计部分串行在ROI Align之后而不是与其并行,个人认为这是比较合理的,因为这样一来Cost Volume可以与其他分支同时充分利用双目图像隐含的视差信息。此外,本文对于Cost Volume的应用也更加的简洁,即利用注意力机制处理,最后直接回归深度信息。
相较于Stereo R-CNN,保持了其大部分的结构。除加入Cost Volume外保持了基本的回归分支,尤其是关键点回归分支,也就是说仍然是利用方程非线性优化处理。甚至连密集对齐模块也没有舍弃,不过仍针对实际情况优化了一下。