《Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model》文献阅读

ha_lee

已于 2023-05-09 11:48:49 修改

阅读量478

点赞数 1

文章标签：人工智能计算机视觉深度学习

于 2023-05-09 11:48:27 首次发布

摘要

摘要：多幅航空图像之间的单应性估计可以为协同自主探测和监控提供相对姿态估计。在机器人系统上使用需要一种快速且鲁棒的单应性估计算法。在本研究中，我们提出了一种无监督学习算法，用于训练深度卷积神经网络来估计平面单形图。我们将该算法与传统的基于特征的直接方法以及相应的监督学习算法进行了比较。我们的实验结果表明，与传统方法相比，无监督算法实现了更快的推理速度，同时保持了相当或更好的精度和对光照变化的鲁棒性。此外，与相应的有监督深度学习方法相比，我们的无监督方法具有更好的适应性和性能。我们的图像数据集和Tensorflow实现可从https://github.com/tynguyen/unsupervisedDeepHomographyRAL2018获得。

一、简介

单应性是一个平面的两个图像之间从不同角度的映射。它们在机器人和计算机视觉应用中发挥着重要作用，例如图像拼接[1]、单目SLAM[2]、3D相机姿势重建[3]和虚拟漫游[4]、[5]。

例如，单形文字适用于由任意移动摄像机远距离观看的场景[6]，这是UA V图像中遇到的情况。然而，要在空中多机器人环境中良好工作，单应性估计算法需要可靠和快速。

单应性估计的两种传统方法是直接方法和基于特征的方法[7]。直接方法，如开创性的Lucas Kanade算法[8]，通过移动或扭曲图像，并使用误差度量（如平方差之和（SSD））比较像素强度值，使用像素对像素匹配。它们初始化单应性参数的猜测，并使用搜索或优化技术，如梯度下降，以最小化误差函数[9]。通过使用不同的性能标准（如增强相关系数（ECC）[10]）、将基于特征的方法与直接方法相结合[11]或在傅里叶域中表示图像[12]，可以提高直接方法的鲁棒性。此外，通过使用有效的合成图像对齐方案，可以提高直接方法的速度[13]。

第二种方法是基于特征的方法。【略】

我们的工作开发了一种无监督、端到端、深层的学习算法来估计单形性。它通过最小化不需要地面真实数据的像素级强度误差度量，改进了这些先前的传统和监督学习方法。与手工制作的基于特征的方法或需要昂贵标签的监督方法不同，我们的模型是自适应的，可以轻松学习不同数据集的良好特征。此外，我们的框架具有很快的推理时间，因为它是高度并行的。

这些自适应和速度特性使我们的无监督网络特别适合于现实世界的机器人任务，例如拼接UAV图像。

我们证明，与合成和真实无人机数据集上基于特征的、直接的和有监督的深度学习方法相比，我们的无监督单应性估计算法具有相当或更好的精度，以及更好的推理速度。此外，我们证明它可以处理大位移(∼ 65%图像重叠），照明变化较大。图1说明了这些数据集的定性结果，其中我们的无监督方法能够估计单应性，而其他方法不能。

我们的无监督算法是一种混合方法，它结合了深度学习的优点与传统直接方法和基于特征的方法的优点。

它与基于特征的方法相似，因为它也依赖特征来计算单应性估计，但不同之处在于它学习特征而不是定义特征。它也类似于直接方法，因为用于驱动网络训练的错误信号是像素级错误。然而，它不是执行在线优化过程，而是离线传输计算并通过这些学习到的特性“缓存”结果。类似的无监督深度学习方法已在计算机视觉任务中取得成功，例如单目深度和摄像机运动估计[25]，这表明我们的框架可以缩放以处理一般非线性运动，例如光流中遇到的运动。

二、问题公式

假设图像是由透视针孔相机获得的，并通过齐次坐标表示点，则：
$\left[\begin{array}{c} u^{\prime} \\ v^{\prime} \\ 1 \end{array}\right]=\left[\begin{array}{lll} h_{11} & h_{12} & h_{13} \\ h_{21} & h_{22} & h_{23} \\ h_{31} & h_{32} & h_{33} \end{array}\right]\left[\begin{array}{c} u \\ v \\ 1 \end{array}\right] \quad \text { Or } \quad \mathbf{x}^{\prime}=\mathbf{H} \mathbf{x}$

三、基于监督的深度学习模型

介绍了《Deep Image Homography Estimation》中的一些内容。

图2：单应性估计方法概述；（a）基准监督的深度学习方法；（b）基于特征的方法；和（c）我们的无监督方法。DLT：直接线性变换；PSGG：参数化采样网格生成器；DS：可微分采样。

四、无监督深度学习模型

虽然有监督的深度学习方法有很好的结果，但它在现实世界中的应用受到了限制，因为它需要地面真值标签。从单应性估计的传统直接方法中得到启发，我们可以定义一个类似的损失函数：
$\mathbf{L}_{P W}=\frac{1}{\left|\mathbf{x}_{i}\right|} \sum_{\mathbf{x}_{i}}\left|I^{A}\left(\mathscr{H}\left(\mathbf{x}_{i}\right)\right)-I^{B}\left(\mathbf{x}_{\mathbf{i}}\right)\right|$

我们选择L1误差而不是L2误差，因为之前的工作已经观察到它更适合于图像对齐问题[28]，并且从经验上我们发现网络更容易用L1误差进行训练。这个损失函数是无监督的，因为没有地面真相标签。与监督情况类似，我们选择了比3×3参数化更适合的4点参数化。

为了将我们的无监督深度学习算法与有监督算法进行比较，我们使用相同的VGGNet架构来输出 $\tilde{\mathbf{H}}_{4 p t}$ 。图2（c）描述了我们的无监督学习模型。回归模块代表VGGNet体系结构，由受监督和无监督方法共享。尽管我们没有研究其他可能的架构，但由于在大小和计算要求方面的优势，不同的回归模型（如SqueezeNet[29]）可能会产生更好的性能。图2（c）的后半部分代表了这项工作的主要贡献，它由可微分层组成，这些可微分层使网络能够用损失函数（4）成功训练。

使用逐像素光度损失函数会产生额外的训练挑战。首先，每个操作，包括imwarp操作 $\mathscr{H}\left(\mathbf{x}_{i}\right)$ ，必须保持可微，以允许通过反向传播训练网络。

其次，由于误差信号取决于图像强度值的差异而不是单应性参数的差异，因此深层网络的训练不一定那么容易或稳定。使用像素级光度损失函数的另一个含义是隐含的假设，即输入图像之间的照明和对比度保持一致。在传统的直接方法（如ECC）中，这种外观变化问题是通过修改损失函数或对图像进行预处理来解决的。在我们的无监督算法中，我们通过训练数据集中所有像素强度的平均值和方差对图像进行标准化，通过注入随机光照偏移执行数据增强，并使用标准L1光度损失。我们发现，即使不修改损失函数，我们的深层神经网络仍然能够学习对光照变化保持不变。

A 模型输入
模型的输入由三部分组成。第一部分是大小为128×128×2的双通道图像，它是 $I^A$ 和 $I^B$ 的堆栈-从两个图像 $I^A$ 和 $I^B$ 中裁剪出的两个补丁。第二部分是 $I^A$ 中的四个角，表示为 $\tilde{\mathbf{H}}_{4 p t}$ 。图像 $I^A$ 也是输入的一部分，因为它是wrapping所必需的。

B 张量直接线性变换
我们开发了一个张量直接线性变换（Tensor DLT）层，用于计算从4点参数化 $\tilde{\mathbf{H}}_{4 p t}$ 到 $\tilde{\mathbf{H}}$ 的可微映射，即单应的3×3参数化。这一层基本上将DLT算法[30]应用于张量，同时保持可微性，以允许在训练期间反向传播。如图2（c）所示，该层的输入是图像对 ${\mathbf{C}}^{A}_{4 p t}$ 和 $\tilde{\mathbf{C}}^{B}_{4 p t}$ 中的对应角，输出是3×3单应性参数化 $\tilde{\mathbf{H}}$ 的估计值。

DLT算法用于求解给定一组四点对应的单应矩阵H[30]。
DLT算法详解

C 空间变换层
该部分对图像 $I^A$ 的像素坐标 $x_i$ 应用DLT层的输出单应性矩阵 $\tilde{\mathbf{H}}$ ,得到变换后的图像 $I^A(\mathscr{H}\left(\mathbf{x}_{i}\right))$

注：无监督模型分析

在这里插入图片描述
第一部分是一个VGG风格的回归网络：该部分的输入是128×128的patch对 $P^A$ 和 $P^B$ ，经过一个回归模型输出 $\tilde{\mathbf{H}}_{4 p t}$ ，这一部分和监督模型原理基本一致。
第二部分是TensorDLT层，该部分的原理是通过直接线性变换(DLT)方法计算单应矩阵。首先输入是 $P^A$ 上取的四个点坐标 ${\mathbf{C}}^{A}_{4 p t}$ ，然后经过上一部分的 $\tilde{\mathbf{H}}_{4 p t}$ 变换得到 $\tilde{\mathbf{C}}^{B}_{4 p t}$ ，再使用DLT算法从 ${\mathbf{C}}^{A}_{4 p t}$ 和 $\tilde{\mathbf{C}}^{B}_{4 p t}$ 估计得到单应矩阵 $\tilde{\mathbf{H}}$ 。
第三部分是空间变换层，是将 $I^A$ 经过上一层的单应矩阵变换得到 $I^A(\mathscr{H}\left(\mathbf{x}_{i}\right))$ ，再从 $I^A(\mathscr{H}\left(\mathbf{x}_{i}\right))$ 上取得对应位置的patch块，得到 $\tilde{\mathbf{P}}^B$ 。
最后，使用 $\tilde{\mathbf{P}}^B$ 和 $\mathbf{P}^B$ 的L1损失作为损失函数，迭代更新参数。

评价结果

我们证明了我们的无监督算法相对于SIFT、ORB、ECC和有监督的深度学习方法的准确性、推理速度和对光照变化的鲁棒性。

A、综合数据结果
本节分析了综合数据集上无监督、监督、SIFT和ECC方法的性能概况。我们想测试我们的方法在光照变化和大图像位移下的性能。
为了考虑光照变化，我们根据训练数据集中所有图像像素强度的平均值和方差对图像进行全局标准化。另外，我们在训练期间注入随机颜色、亮度和伽马偏移。我们不使用任何进一步的预处理，并使用L1光度损失函数。为了突出位移量对每种方法的影响，我们将精度性能细分为：85%图像重叠（小位移）、75%图像重叠（中等位移）和65%图像重叠（大位移）。我们遵循[24]中使用的MS-COCO数据集的合成数据生成过程。图像重叠量由点扰动参数ρ控制。评估指标是Eqn3中的4pt-Homograhphy RMSE。将估计的单应性与基本真值单应性进行比较。

图3显示了按重叠和性能百分比细分的每种方法的结果。我们按性能百分位数对结果进行细分，以说明每种方法的各种性能概况。具体来说，SIFT在60%的时间里表现得很好，但在最坏的40%的时间里，它表现得很差，有时完全无法检测到足够的特征来估计单应性。

图3：合成4pt单应RMSE（越低越好）。无监督方法的性能与有监督方法相当，并且优于其他方法，尤其是当位移较大时。

有趣的是，尽管直接方法ECC存在照明变化和大位移的问题，但我们的无监督方法能够处理这些场景，即使它使用光度损失函数。一个潜在的假设是，我们的方法可以被视为直接方法和基于特征的方法之间的混合。与直接方法相比，神经网络的大感受野可以更好地处理大图像位移。

B、航空数据集结果

本节分析了每种方法在无人机捕获的航空图像的代表性数据集上的性能概况。除了精度性能外，对于实际应用来说，同样重要的考虑因素是推理速度。因此，我们还讨论了加速每种方法权衡的性能。

图6显示了无监督、监督、SIFT和ECC方法的性能概要。图4显示了这些方法的速度和性能权衡，以及基于特征的方法ORB。离左下角越近，性能越好，运行时越快。

图6和图4都表明，我们的无监督算法在所有方法中具有最佳性能。此外，图4还显示了我们在GPU上的无监督方法具有最好的性能和最快的推理时间。

SIFT的性能仅次于我们的无监督算法，但运行速度要慢得多（大约慢200倍）。ORB的运行速度比SIFT快，但代价是性能较差。在所有方法中，ECC直接方法的性能和运行时间最差。图5显示了一个定性示例，其中SIFT和ECC都无法提供良好的结果，而我们的方法却取得了成功。

图5：航空数据集估算方法的定性可视化。左：hard case，右：moderate case。在小位移情况下，ECC性能优于SIFT，但在大位移情况下性能不如SIFT。无监督网络优于SIFT和ECC方法。由于空间有限且在该数据集上的性能较差，监控网络被省略。

航空图像上的4pt单应RMSE（越低越好）。无监督方法明显优于其他方法。

最有趣的结果之一是，尽管监督和非监督方法在合成数据上的表现相似，但监督方法在航空图像数据集上的表现却明显较差。这种转变是因为我们的航空数据集没有地面真相标签。从合成（训练）数据到真实（测试）数据的泛化差距是机器学习中的一个重要问题。最好的实用方法是根据新的数据分布进一步微调模型。在机器人现场实验中，这可以通过驾驶无人机采集一些样本图像并对这些图像进行微调来实现。

然而，这种微调只有在我们的无监督算法下才可能实现。我们的航空数据集结果强调了这样一个事实，即即使可以从真实图像生成合成数据，一对合成图像仍然与一对真实图像有很大的不同。这些结果表明，我们的无监督算法与昂贵的地面真值标签无关，这对现实世界的性能有很大的实际意义。

六、结论

我们引入了一种无监督算法，用于训练深度神经网络来估计平面单形图。我们的方法在合成数据集和真实数据集上都优于相应的监督网络，这表明了无监督学习在图像扭曲问题上的优势。我们的方法实现了更快的推理速度，同时保持了与基于特征的直接方法相当或更好的准确性。我们证明，无监督方法能够处理大位移和大照明变化，这对于使用相同光度损失函数的直接方法来说通常具有挑战性。我们算法的速度和自适应特性使其在可以利用并行计算的空中多机器人应用中特别有用。

在这项工作中，我们不研究对遮挡的鲁棒性，留作将来的工作。然而，正如[24]中所建议的那样，我们可以通过使用数据增强技术来解决这个问题，例如在训练图像中人为地插入随机遮挡形状。未来工作的另一个方向是研究不同的改进，以在前30%的性能百分比中实现亚像素精度。

最后，我们的方法很容易扩展到更一般的warpping运动。我们的发现为应用深度学习方法，特别是无监督学习，解决各种机器人感知问题提供了额外的证据，例如立体深度估计或视觉里程表。我们对使用无监督深层神经网络方法估计单形图的见解为将这些方法应用于更大问题的结构化进程提供了一个初步步骤。

ha_lee

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model》文献阅读

单应性是一个平面的两个图像之间从不同角度的映射。它们在机器人和计算机视觉应用中发挥着重要作用，例如图像拼接[1]、单目SLAM[2]、3D相机姿势重建[3]和虚拟漫游[4]、[5]。例如，单形文字适用于由任意移动摄像机远距离观看的场景[6]，这是UA V图像中遇到的情况。然而，要在空中多机器人环境中良好工作，单应性估计算法需要可靠和快速。单应性估计的两种传统方法是直接方法和基于特征的方法[7]。
复制链接

扫一扫