Domain Adaptation and Adaptive Information Fusion for Object Detection on Foggy Days

最新推荐文章于 2024-01-04 15:27:51 发布

Wanderer001

最新推荐文章于 2024-01-04 15:27:51 发布

阅读量791

点赞数

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/weixin_36670529/article/details/102992426

版权

雾天目标检测深度信息暗通道先验域适应学习数据清洗

关键词由CSDN通过智能技术生成

计算机视觉专栏收录该内容

219 篇文章 87 订阅

订阅专栏

参考 Domain Adaptation for Object Detection on Foggy Days - 云+社区 - 腾讯云

摘要

多雾天气给户外摄像监控系统带来了很多困难。在雾天，介质的光学衰减和散射效应会使场景辐射产生明显的畸变和退化，使其变得嘈杂和难以分辨。针对这一问题，本文提出了一种基于颜色和深度域的目标检测方法。为了防止错误传播问题，我们在训练过程之前清除深度信息，并从数据库中删除错误样本。采用区域自适应策略自适应地融合颜色域和深度域的决策。在实验中，我们评估了深度信息对雾天目标检测的贡献。通过与其他方法的比较，实验验证了多域自适应策略的优越性。

1、简介

室外摄像监控系统广泛应用于城市区域，在交通管理和安全维护中发挥着重要作用。这些系统在各种天气条件下运行是必要的。然而，雾天给基于视觉的系统带来了许多困难。衰减的场景外观和强噪声是影响退化目标检测结果的两个主要因素。

在雾天获取清晰的图像/视频已经做了很多努力，并取得了很好的效果。然而，目前最先进的图像增强方法并不能显著提高目标检测性能。原因有两个。首先，目标检测需要从背景中分割感兴趣的目标。因此，雾天目标检测的关键问题是如何识别目标与背景的偏差。这对于这些增强的图像是困难的，其中包括许多纹理。其次，错误传播阻止使用任何图像预处理程序。图像预处理的初始误差会传播到后续的检测过程中，导致最终目标检测结果的误差。因此，基于预处理的目标检测策略在某些情况下是有问题的。

尽管雾霾效应有其缺点，但它为目标检测提供了一种新的线索。根据光学成像模型，霾浓度随深度变化。因此，我们可以通过雾霾浓度的估计来表示未缩放的深度，根据雾霾浓度的点对点差异来表示物体与背景的深度对比。除了颜色域中的RGB信息外，该信息还提供了一种新的目标检测特性。对于雾天霾浓度的估计，最有效的方法是采用暗通道先验模型。暗原色先验模型的优点是可以利用单目图像来估计雾霾浓度。然而，其缺点是对图像噪声十分敏感，因此在霾浓度估计结果中，图像离群点会造成严重的误差。为了解决这一问题，本文采用了一种新的数据清洗方法来过滤深度数据。这可以保证背景模型的正确性，但是会导致深度和颜色域的数据量不相等。采用领域适应学习策略解决了这一问题。利用颜色和深度信息分别训练两个检测器，并结合这两个检测器进行最终的域适应检测。我们方法的新颖之处有三：

(一)、雾天基于深度信息的目标检测。为了克服雾天带来的挑战，我们的方法利用深度信息进行目标检测。

(二)、基于领域适应学习的雾天背景建模。我们的方法分别使用颜色和深度信息训练背景模型，并通过领域适应学习策略对其进行联合训练。

(三)、探索雾天图像的深度和色彩特征。我们的方法探索了颜色和深度域的特征，并将它们融合在雾天的目标检测中。

论文结构如下。在第二部分中，我们介绍了图像处理和雾天目标检测的最新研究进展。第三节介绍了我们提出的方法。实验结果见第四节，我们的结论见第五节。

2、相关工作

在多雾天气中，大多数与目标检测相关的工作都涉及到图像去雾和目标检测方法的结合。前者通常用作增强对象外观的预处理程序，而对象-背景转换由目标检测后处理器标识。

2.1、图像处理

针对雾天图像的雾霾效应，提出了多种图像处理方法。一般来说，雾天的图像处理是通过变换大气散射模型来实现的，可简化为：

其中 $E(d,\lambda)$ 为获得的图像， $E_{dt}(d, \lambda)$ 为来自物体辐射的项， $E_a(d, \lambda)$ 为霾项，和 $\lambda$ 分别为光的透射距离和波长。在该模型中，关键问题是传输距离的估计。Narasimhan等人发现霾环境的点对点对比度与点的深度有关。该原理用于去除雾霾，恢复原始场景辐射。用这种方法得到的结果可以提供一个视觉上令人满意的表现。Schechner等人提出了一种基于场景深度随光偏振度变化的深度估计方法。该方法具有良好的物理基础，但需要复杂的偏振成像设备。Liang等人发现光偏振状态随着场景深度的变化而变化，通过改变光偏振的角度可以增强场景的对比度。还有许多场景深度和环境光估计使用高级图像功能。Kopf等人引入了一种三维地形模型来估计真实场景深度。该方法将深度、纹理、地理信息等多源信息联合起来进行图像的重放和去雾处理。Nishino等人提出了一种贝叶斯概率方法来估计单幅雾天图像的场景反照率和深度。孟结合上下文正则化 L_1 范数和边界约束，提出了一种优化估算光透射参数的方法。与上述方法相比，利用暗通道先验模型实现了一种更有效的策略。根据暗通道先验，在清晰图像中，至少有一个颜色通道上存在某些像素的极低值。因此，雾天图像的暗通道强度指示了依赖深度的雾霾浓度。暗通道模型在平行环境光的情况下工作良好，而当图像中包含天窗时，暗通道模型的性能严重退化。阻塞效应和闪烁伪影造成了问题，因为它们降低了深度估计的准确性。为了解决这些问题，Li在更新暗通道先验模型[21]之前，提出了一个具有强度值的马尔科夫随机场。Wang等人使用恒定强度阈值分割天窗区域，并估计其他区域[22]的环境光。Qing等人提出了一种混合高斯(mix -of- gaussian, MoG)模型来估计天窗分布。最近，Zhu等人将亮度模型与暗通道先验模型相融合来去除图像[24]中的雾霾。

2.2、目标检测

由于雾天的外观退化和雾霾效应，使得目标与背景的偏差严重退化。为了解决这个问题，大多数现有的方法，包括上面提到的方法，都依赖于一个两阶段结构：一个图像预处理程序，然后是一个检测后处理器。该策略的优点和缺点在引言(第一节)中进行了讨论，此外，还有基于最优数学模型的方法。Oreifej提出了一种三项低秩矩阵分解方法，将图像数据分解为场景背景、介质湍流度和感兴趣对象三部分。然后，使用L1规范[25]分割移动目标。Gilles采用几何时空观点来解决大气湍流问题，并建立了一个模型来区分运动物体在湍流情况下的运动。

3、提出的方法

本文提出的新型目标检测方法基于一种域自适应策略。在我们的方法中探索了两个域的信息—颜色和深度。深度信息是使用暗通道先验模型估计的，在暗通道先验模型中，天窗被初始移除。此外，我们还提出了一种数据清理方法来消除错误的深度信息，保证训练数据的正确性。

在数据清理过程之后，两个源之间会产生不平等的影响。该问题由领域自适应框架处理，利用颜色和深度信息分别得到的结果自适应地组合生成最终的目标检测结果。我们提出的方法的框架如图1所示。

3.1、深度估计和数据清洗

在现有的雾霾环境深度估计方法中，最有效的方法是暗通道先验模型。虽然该模型只允许非尺度测量，但估计结果可以反映出目标与背景的对比。针对天窗区域的去除，提出了一种光学特征相关方法来识别光分量。此外，为了消除训练数据中的错误，根据帧间通信对深度信息进行了清洗。

3.3.1、天窗区域识别和移除

在暗信道先验模型中，天窗区域会引起深度估计的误差。与通过雾霾介质传输的环境光相比，天窗的所有颜色通道的强度都是均匀的，明显高于周围区域。在使用暗通道模型时，容易将天窗区域的内容误认为是环境光的表现形式，造成深度估计的严重误差。天窗可以从两个方面进行识别:

(1)低通道变化：与其他光学元件相比，天窗的通道变化相对较小。

(2)距离独立密度：由于雾霾环境中的光散射因子，在天窗区域，任意点的强度与其离光学准直的距离有关。

这两个原则是数学模型，并结合识别天窗区域。对于通道变化，可以建立如下数学模型：

其中为RGB颜色空间中x点的方差， I_x^c 为通道中的强度(红色， I_x^r ;绿色, I_x^g ;而蓝色( I_x^b )和 I_x^o 是颜色通道的平均值。

对于与距离相关的强度效应，可以利用强度-位置关系对天窗区域进行数学建模，该关系由与整幅图像中最高强度的指数距离进行缩放，如下：

其中， $D_{x,m}$ 是点和点之间的欧氏距离，在整个图像中，点和点的强度最大。 $\mathrm{x}=\left[x_{1}, x_{2}\right]$ 和 $\mathrm{m}=\left[m_{1}, m_{2}\right]$ 是点和的空间坐标，将这两个原理与相关计算相结合，可以对天窗的判别函数建模如下：

对应的阈值为：

其中corr2()为二维相关计算，T为去除天窗面积的阈值。在没有天窗的区域进行环境光估计和暗通道计算，其中 $L_{\text {Skulight }}=0$ 。图2显示了三个雾天的天窗识别和深度估计示例。从这些样本中我们可以看出，强度位置与通道变化之间的相关关系可以正确的描述天窗的分布，因为它们的值都在天窗附近的区域内最小。去除天窗后，深度估计结果可以反映出目标与背景之间的视深对比。

3.1.2、基于暗通道先验模型的深度估计

根据暗原色先验模型，在大多数无雾图像中，极低强度值表示至少有一个颜色通道，如下图所示：

其中， I^c_y 为邻域中点的通道， $\Omega_x$ 为以点为中心的局部斑块，暗通道的强度为与深度相关的霾浓度的表示，称为[20]中的传输。因此，深度依赖的霾浓度/传播可以表示为:

其中为去雾度系数，表示深度， $A^{c}$ 为环境光，对应整个图像上暗通道的最大值，如下:

如前所述，传输 $\Gamma_x$ 严格依赖于x点处的深度 d_x ；因此，点对点传输差可以正确地表示点对点深度差。识别目标与背景之间的偏差是目标检测的一个理想属性。因此，在本文中，我们提出了深度 d_x 与传输 $\Gamma_x$ ，即 $d_x \propto \Gamma_x$ 。

3.1.3、对深度信息的数据清洁

虽然可以通过3.1.1节所示的方法去除天窗区域，但深度估计中的随机误差(可能由毛刺点引起)是无法避免的。为了解决这一问题，我们提出了一种深度图的数据清洗方法。在视频序列中，帧与帧之间在短时间间隔内的变化很小，变化只出现在有限的补丁中，而大多数像素保持不变，如图3的第一行所示。这说明在较短的时间间隔内，帧与帧之间的相关性很强，对应的深度图也应该如此，否则会出现随机误差，如图3第二行所示。

短时间间隔内帧与深度图之间的一对关联关系可以用数学方法计算如下：

其中 I_t 和 $I_{t-k}$ 是时间步长t和t−k的帧， $\psi _t$ 和 $\psi _{t-k}$ 是相应的深度映射。在这里，参数k设计为，对于时间步长t中的深度图 $\psi _t$ , $\psi _{t-k}$ 是之前时间步长中最接近的深度图。例如，如果将 $\psi _{t-1}$ 确定为时间步长t - 1的误差，而 $\psi _{t-2}$ 是正确的，则k = 2, $R_t = corr2(I_t, I_{t - 2})$ ， $R'_t = corr2(\psi _t, \psi_{t - 2})$ 。

假设第一帧深度图是正确的，则在以下条件下识别错误：

其中 $\lambda$ 为调节参数。如前所述，这种类型的误差是由随机噪声引起的，如毛刺点。因此，错误不会在很长时间间隔内持续发生。因此，在实际应用中，参数k并不大(一般为 $1 \leq k \leq 3$ )，用于相关计算的时间间隔有限，这使得正确的样本保持了 R_t 与 R'_t 之间的对应关系。这个数据清理过程可以用图3中的示例来说明。理论上，在环境光估计过程中，暗通道先验模型提取暗通道中最亮的点来表示其邻域，提取整幅图像中最亮的斑块来表示环境光。这种方法对图像的毛刺很敏感，因为即使是一个单独的噪声点也会导致环境光估计和深度估计的误差。这是实际应用中由于成像噪声造成的一种常见情况。例如，在第四帧(图3的第一行)中附近的随机噪声由于在暗通道中强度较大而被误认为是环境光的表现。这会导致深度估计错误(第二行的第四帧)。因此，图3中第四帧的深度估计输出与前一帧有明显的不同，尽管它们的输入看起来是相似的。这就是第四帧得到的 R'_t 值较低的原因。根据我们提出的数据清洗原理，去掉第四帧的深度估计结果，将第五帧与第三帧进行对比，继续清洗进度。

3.2、域适配学习和模型融合

利用深度估计方法，对于雾天的任意场景，在颜色和深度域中分别获得两个目标检测源。数据清理之后，这两个域中的数据量是不相等的。该方法采用跨源域自适应的方法，在训练数据较少的背景模型(深度信息)的基础上，利用训练数据较多的背景模型(颜色信息)对背景模型进行改进。这是基于深度比例尺的变化与颜色信息的变化相对应的原理，因为深度偏差可能存在于颜色域中出现对比的边缘。我们使用核密度估计(KDE)来建立颜色和深度域的背景模型。

3.2.1、KDE模型

之所以使用KDE来建立背景模型，是因为它对复杂场景的短期变化具有良好的适应性。从理论上讲，KDE是一个典型的非参数模型，它通过训练样本而不是之前任何关于数据分布的假设来呈现背景。

经典的KDE模型可以通过将测试样本与选择的训练样本进行比较，得到如下的数学表达式：

其中个样本 x_i 在训练数据中选择用作背景的代表性, x_t 代表了测试样品, B_t 是t时间步的背景模型,和K(x)是内核函数，它满足条件

3.2.2、颜色深度的跨域适配

彩色图像和深度图的数量用kc和kd表示。数据清洗后， $k^c \geq k^d$ 。我们将颜色定义为源域，将深度定义为目标域。在这两个领域，我们计算方向梯度直方图(HOG)来描述局部变化。HOG特征计算图像局部区域内梯度方向出现的次数。这个梯度信息对目标检测很有用，因为它在目标和背景之间的过渡时发生了很大的变化。对于HOG特征，每个像素都有两个特征：幅度和方向 $\theta$ 。这些特征可以用离散小波变换(DWT)的LL子带( $\phi_{L L}$ )数值表示。

其中， $\phi _{LL}(x)$ 和 $\phi _{LL}(y)$ 分别是LL子带在x和y方向上的导数。建立目标检测特征的一种直接方法是结合不同领域的HOG特征。然而，由于源域和目标域的特征之间的不平等，这种想法可能不适合本研究。

针对这一问题，我们提出了一种基于两个并行流的领域适应学习策略。该方法利用颜色域训练数据的丰富可用性来学习在深度域有效工作的模型，而深度域的例子较少。具体来说，在第t步分别训练了两个独立的背景模型 B_t^c 和。设和分别为颜色和深度特征的分布。我们可以看到输入特征在两个域的分布是不同的，即 $P(B_t^c) \neq P(B_t^d)$ 。需要注意的是，如果没有自适应机制，这可能会导致目标域的检测结果较差，因为包含较大的源训练集的彩色域模型在密集的源区域会被训练得很好。

我们现在提出了具体的领域适配KDE算法。领域适应的一个最简单的可能的策略是由两个KDE的凸组合组成，这两个KDE是独立于颜色和深度领域学习的。该框架虽然简单，但已被证明具有良好的实证结果。因此，最终的领域适应背景模型 B_t 可以由两个不同领域的两个背景模型的加权线性组合产生，具体如下：

其中，权重参数 w^c 和 w^d 通过最小化目标(深度)域中的检测误差来确定；, , x_t^d 为第t步测试样品; x^c_j 和 x^d_k 是通过KDE模型学习的背景样本; N^c 和 N^d 是背景样本的数量。

参数 $w^c \in [0,1]$ 、 $w^d \in [0,1]$ 是通过最小化颜色训练集上的多类误差，通过网格搜索确定的。我们通过应用两阶段程序避免了由于学习同一训练集上的假设、 w^c 和 w^d 而产生的偏差估计。首先，我们使用交叉验证(使用为KDE找到的超参数值)学习不同的假设，并使用未在该示例上训练的交叉验证假设在每个训练样本上计算预测。其次，我们使用这些预测输出来确定最优的权重。最后，我们使用整个目标训练集来学习背景模型。一般来说，我们的深度-颜色特征学习和融合过程可以用算法1来表示。

4、实验结果

为了对我们的方法进行实验评估，我们选择了来自YouTube的公共视频，其中包括雾天的各种场景。在雾天获得的50个视频序列包括在这个评估中。对于每个序列，我们只采集了一个视频片段，保持了测试数据的多样性。因此，我们在实验中测试了50个不同的视频片段，共1257帧。对于一个视频切片，连续帧之间的变化非常小。因此，训练数据集的冗余度很高。如果使用所有帧对背景模型进行训练，那么训练过程的时间成本会非常高。为了消除训练样本之间的冗余，我们每隔五帧随机选取一帧。在每一个实验中，我们都将输入帧的分辨率保持为帧的原始分辨率。对于一个视频序列，我们选取了250帧作为训练样本对背景进行建模。首先，我们通过展示有深度信息和没有深度信息的目标检测结果来说明深度信息的贡献。然后，我们的方法与现有的背景建模方法，即spatiotemporal MoG (ST-MoG)、Vibe和DECOLOR进行了实验比较。此外，四元数傅里叶变换(PQFT)方法的相位谱也被选为一种典型的基于预处理/显著性的目标检测方法。对于这些比较的方法，我们使用颜色域提取的特征，而不包括深度特征。因此，域自适应策略的性能可以得到很好的证明。优秀的深度学习方法并没有被纳入我们的实验，因为它们需要大量的训练数据，超出了本研究所收集的数据。目前，没有一个数据库包含在雾天获得的足够的数据来训练深度网络。如果我们使用类似于KDE模型的数据库来实现深度学习方法，那么将很难获得预期的目标检测结果，从而对这些深度学习方法产生不公平的评价。因此，本研究选择的比较方法模型复杂度相对较低，在不同场景中被证明是有效的对象检测方法。参数T和l分别设置为 T = 0.8 和 $\lambda = 0.9$ ，实验中暗原色先验的窗口大小为3×3。

4.1、评估标准

我们的实验评估的ground truth是由10个志愿者提供的标签的平均值得到的。因为我们的方法的目的是检测移动对象的区域，所以我们的ground truth中的移动对象是根据一个假设来识别的:如果移动对象的位移在5个连续的帧中大于10像素，那么我们就可以识别移动对象。这可以防止静态对象和动态噪声的影响。根据PASCAL准则，用C来评价检测结果与ground truth的重叠程度:

其中 $\Omega^{\prime}$ 为检测结果， $\Omega$ 为ground truth。根据以下6项标准对我们的方法进行了评估:准确率(precision, Pr)、相似度(similarity, Sim)、真阳性率(true positive rate, TPR)、F-score，假阳性率(false positive rate, FPR)和误分类率(error classification, PWC)。

这里，tp、tn、fp和fn分别表示真阳性、真阴性、假阳性和假阴性的数量。

4.2、定性的评价

本文从两个方面进行了论证。首先给出了基于深度信息的目标检测性能，定性地了解了颜色域和深度域结合信息的动机;其次，通过与其他方法的比较，定性地评价了性能。

图4显示了雾天三个场景的深度、颜色信息和对应的目标检测结果的地图。我们观察到深度和颜色信息之间的互补关系。一般来说，深度信息对附近的物体更敏感，对背景噪声的去除能力也更好。然而，利用深度信息很难探测到远距离目标。与深度信息相比，颜色信息对远离摄像机的目标检测效果更好。利用颜色信息得到的结果存在点噪声。因此，我们观察到，当使用深度信息时，I和II场景中的一些遥远的物体被遗漏了。然而，深度信息在场景III中表现得更好，因为它识别了使用颜色信息得到的结果中遗漏的行人目标。

定性性能比较如图5所示。这些结果表明不同的方法具有不同的性质。ST-MoG模型具有良好的目标识别能力，但这种方法的缺点可以通过噪声点和结果中的空穴来体现。对于类块目标，Vibe和DECOLOR方法表现出更好的性能。但是，当结构物体靠近相机时，例如第七行和最后一行的样本，脱色的性能相对退化。基于PQFT的方法只能提供粗略的结果，描绘的是物体的区域，而不是其精确的轮廓。一般来说，该方法能够正确地检测出目标，特别是邻近目标，从而获得最佳的检测结果。但是，我们的方法在某些情况下会遗漏远处的对象(例如，第三行和第四行的结果)。产生这种误差的原因是我们的方法使用的深度信息是由简单的基于暗渠先验模型的无标度测量给出的，这种方法效率高但分辨率低。因此，那些远离相机的物体很可能被误认为是背景，因为未缩放的深度信息不够敏感，无法区分发生在远离相机的运动。形态学方案，如侵蚀和扩张算子可以进一步介绍，以消除毛刺和噪声的结果。但是，这些方法不能自动运行，我们应该根据具体情况仔细配置控制参数，比如内核的带宽。这可能会导致性能比较的偏差，因为我们很难确定这些参数对于任何特殊结果是否是全局最优的。这就是在ex中维护原始目标检测结果的原因。

4.3、定量评估

利用上述标准，我们提供了一个定量评价的比较方法和我们的方法。由表1可以看出，我们的方法在四个准则中表现最好，在两个准则中表现次之。最具可比性的表现是通过Vibe方法获得的，因为它在两个标准中是最好的，在三个标准中是次好结果。从表1的得分可以看出，虽然我们的方法在天气好的情况下无法达到我们的性能，但是我们的方法在大多数情况下是可以使用的，因为帕PASCAL准则的平均得分 $\overline{\mathrm{C}}>0.5$ 表明检测和跟踪是成功的。

5、结论

为了解决雾天目标检测的问题，本研究对图像数据中的颜色和深度信息进行了探索和融合。为了防止训练数据集中的错误，提出了一系列技巧，如天窗移除和数据清理。我们分别使用颜色和深度域的特征来训练和建立背景模型。这两个背景模型在一个统一的域适应框架下组合，将源域(颜色)模型引入目标域(深度)。在雾天利用公共数据进行的实验中，取得了理想的目标检测结果。实验结果表明，该方法的一个潜在的缺点是难以检测出远距离目标。这个问题可以通过更新深度估计方法来解决。

我们的方法是第一个研究基于深度特征的雾天目标检测的方法。该方法可以推广到其他具有深度信息的目标检测任务，如基于RGB-D数据的目标检测。此外，我们在未来的工作中还包括一个雾探测模型，它是在现实条件下的全天候系统的基础。

Wanderer001

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Domain Adaptation and Adaptive Information Fusion for Object Detection on Foggy Days

目录摘要1、简介2、相关工作2.1、图像处理2.2、目标检测3、提出的方法3.1、深度估计和数据清洗3.3.1、天窗区域识别和移除3.1.2、基于暗通道先验模型的深度估计3.1.3、对深度信息的数据清洁3.2、域适配学习和模型融合3.2.1、KDE模型3.2.2、颜色深度的跨域适配4、实验结果4.1、评估标准4.2、定性的评价4.......
复制链接

扫一扫