本文链接：https://blog.csdn.net/guleileo/article/details/81351344

640?wx_fmt=jpeg

摘要

从立体图像或视频帧中进行遮挡物的检测，对许多计算机视觉应用而言都是非常重要的。先前的研究重点主要是将其与视差或光流的计算捆绑在一起，这导致了严重的 chicken-and-egg 问题。在本文中，我们利用卷积神经网络来解决传统交错的计算框架中遮挡物检测问题。

我们提出一个对称的卷积神经网络结构 (SymmNet)，它能够直接利用图像对的信息，而无需提前估计视觉差异或动作的影响。我们所提出的网络是一种左右的对称结构，在学习双目下的遮挡问题的同时，旨在共同改善检测结果。

我们通过综合的实验分析来验证我们模型的有效性：实验结果表明，在立体图像和运动遮挡问题中，我们的模型能够取得当前最先进的检测表现。

简介

对多视角图像或视频序列数据的遮挡或无遮挡区域的定位问题，一直以来是许多计算机视觉任务中非常感兴趣的研究方向。解决这个问题我们需要考虑与其最相关的两个任务：立体图像计算和视频光流估计。

图像中被遮挡的像素是违反了图像内部的对应约束，从而导致像素匹配的模糊性。当前最先进的处理立体图像和光流方法都是基于对遮挡物的检测：通过在视差和运动计算过程中排除遮挡物的像素，或通过修复这些被遮挡的区域。

因此，遮挡物检测也被应用于帮助改善诸如动作识别、目标追踪和 3D 重建等任务的表现。现有的大多数方法都是视差或光流估计来解决遮挡物的检测问题。最简单也是最广泛使用的方法是左右交叉检查 (left-right-cross-checking，LRC)，这种方法直接通过预先计算的视差结果来推断遮挡的位置。然而，LRC 方法中未引入遮挡物的先验知识，这将无法精确地计算出视差结果，影响后续的检测结果。

其他一些研究提出通过交替改进视差和运动准确性，来迭代地改善遮挡物的映射图。总的说来，先前研究中对遮挡物的检测依赖于预先计算的视差或光流估计，这种方法容易受到噪声、低或重复的纹理特征的理影响，具有很大局限性。

这促使我们探索一种检测立体图像或视频连续帧中遮挡物的解决方案。在本文中，我们主要关注的是立体图像的遮挡物检测问题。随着卷积神经网络 (CNN) 在单目深度和相机定位方面的成功应用，我们利用 CNN 结构来解决遮挡物检测中的视差估计问题。