导言
双目匹配可以得到环境中的三维深度信息,进而为机器人,无人车,VR等现实场景下的应用提供有力信息,在对安全验证比较高的人脸支付领域,三维人脸验证也正在逐渐取代安全性较低的二维人脸验证。近年来,深度学习双目系统匹配已经取得了很不错的进展,很多先进的网络性能已经超过传统方法。然而,深度学习双目系统匹配仍然在实用方面面临很多问题,其中一个问题便是无法做到推断实时。这点严重制约了双目匹配网络在实际中的应用。最近谷歌研究员提出了实时端到端双目系统深度学习小网络stereonet,推断速度达到60FPS,远超之前的方法。
Github地址:
https://github.com/meteorshowers/StereoNet
背景分析
为了从立体图像中获得深度估计值,一个典型的立体匹配算法包括四步:匹配代价计算,代价聚合,优化和视差精细化。当前最前沿的研究聚焦于如何利用CNNs准确的计算匹配代价和如何利用半全局匹配(SGM)去优化视差图。
传统匹配算法比较经典的稠密匹配算法是SGM算法,半全局立体匹配算法Semi-Global Matching,SGM由学者Hirschmüller在2005年所提出1,提出的背景是一方面高效率的局部算法由于所基于的局部窗口视差相同的假设在很多情况下并不成立导致匹配效果较差;而另一方面全局算法虽然通过二维相邻像素视差之间的约束(如平滑性约束)而得到更好的匹配效果,但是对内存的占用量大,速度慢。为了结合两者的优点,同时避免两者的缺点,SGM算法依旧采用全局框架,但是在计算能量函数最小化的步骤时使用高效率的一维路径聚合方法来代替全局算法中的二维最小化算法,使用一维最优来近似二维最优,得到的视差图在效