MVSNet系列不完全统计
背景介绍
Multi-image stereo reconstruction 就是利用multiple,overlap的图像来重建3D场景,并且这些图片使用透视相机并知道内外参数。
Stereo reconstruction一般可以分成三步:
- Rectification
- Stereo matching
- Triangulation
其中最重要的就是获得视差图,得到了视差图其实也就得到了深度图。得到视差图就是要计算左右两张图中,匹配点在对应图中的视差;最直接也是最慢的就是逐点计算对应匹配,但是实在是太耗时了,因此往往构建损失立方(cost volume)来计算视差。
cost volume就是在给定的深度中,在左右两张图极线上搜索;比如左侧的p点,在右侧的极线对应地方有D_min ~ D_max范围存在对应的正确匹配点,那么计算所有d的损失值并叠加在一起就是volume了。在最终的视差图p点的视差就是cost volume中损失最小的层(就是最匹配的)。
Cost Volume在所有MVSNet方法中都使用到了,其实是传统Multi-view Stereo、Stereo Matching和光流中借鉴过来的思想,早期的DL直接使用2D CNN预测深度但是精度都不高,自MVSNet开始使用CostVolume之后普遍接受了这种思想。
For stereo matching the labels l correspond to vectors (u, v) which define the displacement in x and y direction. In the x direction, the displacement corresponds to the disparity d (u = d) and t