在Computer Vision领域里面Stereo matching一个很古老的话题了。用一句话来形容它的目的就是:通过不同角度拍摄的三维场景的图像来估计场景中的深度信息。直观的理解就是人眼的一个感受:当人把手指放在离双眼很近的地方时,通过左眼和右眼分别观察到的手指在左右视野中变化很大,而手指放在离双眼较远的地方时,两个眼睛分别形成的视野中手指变化不大。这个变化可以用一个量disparity来形容,它跟物体的深度信息成这样一个反比关系:
d*z=f*B
其中d即为disparity,z为深度depth,f是focal length,即为相机的焦距,B是baseline,是两个camera的中心之间的距离。所以在相机参数已知的情况下,知道的了disparity就知道了图像中每个pixel的depth信息。所以stereo matching的讨论简化之讨论如果通过两张不同位置拍摄的图像,来计算一张图像中的disparity map。在这里两张图像一张是计算disparity的图像,另一张可以看做是reference的图像,不过它们的顺序当然可以颠倒。有一篇综述大致介绍stereo matching的pipeline,我个人觉得蛮不错的,可以作为入门级的教科书,也是我接触stereo看的第一篇paper。