【论文学习笔记-7】Bi3D:Stereo Depth Estimation via Binary Classification(CVPR2020)
本文提出了Bi3D,通过一系列二元分类来进行深度估计。与已经存在的方法不同,本方法不是直接检测物体是否存在于一个特定的深度D,而是将物体分类为比D近/比D远。这种方法坚固了准确率和延迟,能够在很快速度(as little as a few milliseconds)的条件下检测比一个给定的距离更近的物体,或通过任意粗量化方法(arbitrarily coarse quantization)进行深度估计,同时只消耗与量化等级线性的复杂度。同时Bi3D也能通过给定的量化等级获得连续的深度。在普通的深度任务上,Bi3D能够达到与SOTA相近或同等的水平。
传统的方法不能只关注一个特定的深度范围,必须要将全图中所有的像素的深度都计算出来。这是因为已有的已有的方法的核心大多是检测一些候选时差值,在一些成本函数下选择最可能的点。这导致:
①这些方法需要把场景中所有物体都进行一个范围的搜索。
②视察的分划不能较粗,不然效果很差。
本文提出了一种平衡深度量化程度和计算预算的方法。不进行对真实深度的回归,而是在给予一个参考平面π后,对每个点进行二分类:在π平面的前面或是后面,π平面可以看作立体相机前的一个“地理围栏”(geo-fence),可用于检测物体是不是在一个安全距离之内。在通过多个这样的平面的分类之后,就可以通过估计像素的深度。通过调整这些平面就可以对深度估计的范围进行控制。
通过右图的图像缩放获得平面D,平面D前和后pixel的movement方向相反(在D和相机中间的方向不变,更远的方向相反)
Bi3D
①可以在段时间内判别一个物体比一个给定的距离更近还是更远,称为二元深度估计。
②如果时间的预算更多,Bi3D可以通过更细致的量化分类来提高精度,同时计算时间线性提升。这成为“量化的深度"(比如一个平面可以将像素分成两类,两个平面分成三类,n个分成n+1类等)
③或者,Bi3D也可以在两平面[π1,π2]间预测连续的深度。同时判断在这个范围之外的物体究竟是离π1更近还是π2更远,称为"选择性的深度估计"。
④最后Bi3D可以像普通方法那样预测部的深度同时达到与SOTA相匹配的效果。
Method
考虑一个立体图片对R和S,可以在每个视差d上建立一个Plane sweep volume(PSV),计算公式为:
其中W是在单应性矩阵H上的单应性变换, π d i \pi d_i