阅读笔记（TIP 2021）Unsupervised Deep Image Stitching: Reconstructing Stitched Features to Images

Seung-Yim Yau

已于 2024-03-19 14:39:25 修改

阅读量322

点赞数 1

分类专栏：深度学习版图像拼接文章标签：深度学习-图像拼接

于 2024-02-01 14:09:38 首次发布

本文链接：https://blog.csdn.net/Miracle0_0/article/details/135972846

版权

深度学习版图像拼接专栏收录该内容

17 篇文章 16 订阅

订阅专栏

无监督深度图像拼接：将拼接特征重建为图像

Nie, L., Lin, C., Liao, K., Liu, S., & Zhao, Y. (2021). Unsupervised deep image stitching: Reconstructing stitched features to images. IEEE Transactions on Image Processing, 30, 6184-6197.

0.摘要

传统的基于特征的图像拼接技术严重依赖于特征检测质量，往往无法拼接特征较少或分辨率较低的图像。基于学习的图像拼接方法由于缺乏标记数据而很少被研究，使得监督方法不可靠。针对上述问题，提出了一种无监督的深度图像拼接框架，该框架由两个阶段组成：无监督的图像粗对齐和无监督的图像重建。在第一阶段，我们设计了一个基于消融（ablation-based）的损失来约束一个无监督单应性网络，它更适合于大基线场景。此外，还引入了一个Transformer层，用于在拼接域空间中变形输入图像。在第二阶段，基于像素级的错位可以在特征级得到一定程度的消除这一观点，设计了一种无监督的图像重建网络，从特征到像素消除伪影。具体地说，重构网络可以通过低分辨率变形分支和高分辨率细化分支来实现，在学习图像拼接变形规则的同时提高分辨率。为了建立评估基准和训练学习框架，提出并发布了一个用于无监督深度图像拼接的综合真实世界图像数据集。大量的实验结果表明，我们的方法优于最新的解决方案. 即使与有监督的解决方案相比，我们的图像拼接质量仍然受到用户的青睐。

1. 引言

图像拼接是计算机视觉中一项重要而又具有挑战性的研究课题，其目的是从不同视角拍摄的不同图像中构造出具有更宽视场的全景图像。该技术在生物[1]、[2]、医疗[3]、监控视频[4]、[5]、自动驾驶[6]、[7]、虚拟现实（VR）[8]、[9]等不同领域都有很大的用途。
传统的图像拼接解决方案是基于特征的方法，其中特征检测是能够深刻影响拼接性能的第一步。然后利用匹配的特征建立参数化的图像配准模型，通过该模型可以将目标图像与参考图像进行变形对齐。最后，可以通过向变形图像之间的重叠区域中的每个像素分配像素值来获得拼接图像。
其中，参数化图像配准模型的建立是基于特征的图像配准方法的关键。事实上，单应性变换是最常用的图像配准模型，其包含平移、旋转、缩放和消失点变换，正确地说明了从一个2D平面到另一个2D平面的变换[10]。然而，在实际场景中，每个图像域可能包含多个不同的深度级别，这与单应性的平面场景假设相矛盾。由于一个单应性不能说明不同深度水平上的所有对齐，因此在缝合结果中经常存在重影效果。
传统的基于特征的解决方案通过两种主流方式来减轻伪影。第一种方法是通过尽可能地将目标图像与参考图像对齐来消除伪影[11]-[20]。这些方法将图像划分为不同的区域，并为每个不同的区域计算单应矩阵。通过在这些区域上施加空间变化的变形，重叠区域被很好地对齐，并且伪影被显著地减少。第二种方式是通过研究最佳接缝来缝合扭曲的图像[21]-[26]来隐藏伪影。通过优化与接缝相关的成本，可以将重叠部分沿着接缝划分为两个互补区域。然后，根据两个区域来形成拼接图像。基于特征的解决方案可以显著减少大多数场景中的伪影。然而，它们严重依赖于特征检测，因此拼接性能可能会急剧下降，甚至在特征较少或分辨率较低的场景中失败。
由于卷积神经网络（CNNs）令人难以置信的特征提取能力，最近基于学习的方法已经在诸如深度估计[28]、光流估计[29]、[30]、失真校正[31]的各个领域中实现了最先进的性能。越来越多的研究者尝试将神经网络应用于图像拼接。在[32]、[33]中，CNNs仅用于提取特征点，而在[4]、[7]、[34]中，提出了CNNs来拼接具有固定视角位置的图像。遗憾的是，这些方法要么不是一个完整的基于学习的框架[32]，[33]，要么只能用于拼接具有固定视角而不是任意视图的图像[4]，[7]，[34]。然后，提出了任意视角的深度图像拼接方法[35]、[36]以同时克服这两个问题。在这些任意视角的解决方案中，深度图像拼接可以通过深度单应性模块、空间Transformer模块和深度图像细化模块来完成。但是，所有的解决方案都是有监督的方法，并且由于实际场景中无法获得缝合标签，因此直到现在还没有用于深度图像缝合的真实的数据集。因此，这些网络只能在“无视差”的合成数据集上训练，导致在真实的场景中的应用不令人满意。

为了克服基于特征的解决方案和有监督的深度解决方案的局限性，我们提出了一种无监督的深度图像拼接框架，该框架包括无监督的粗图像配准阶段和无监督的图像重建阶段。流程图，如图1所示。

在第一阶段中，我们使用一个单应性来粗略地对齐输入图像。不同于现有的无监督深度单应性解决方案[37]，[38]需要输入图像周围的额外图像内容作为监督，我们设计了一种基于消融的损失来优化我们的无监督深度单应性网络，更适合于大基线场景，其中大基线是[38]中小基线的相对概念。此外，还提出了一个拼接域Transformer层，用于在拼接域中变形输入图像，其占用的空间比现有的深度拼接工作少[35]，[36]。在第二阶段，我们提出了一个巧妙的策略来重建拼接图像从特征到像素，消除伪影的无监督图像重建。特别地，我们在重建网络中设计了一个低分辨率的变形分支和一个高分辨率的细化分支，分别用于学习图像拼接的变形规则和提高分辨率。

这种重建策略的动机是观察到的：特征级的未对齐比像素级的未对齐更不明显（图2左侧）。与像素相比，特征映射更加模糊，这表明在特征级可以在一定程度上消除像素级的错位。因此，我们认为在特征级比在像素级更容易消除伪影。为了实现这一点，我们首先重建尽可能接近两个变形图像的拼接图像的特征（图2中的第3列）。然后，可以基于重建的特征在像素级重建拼接图像（图2中的第4列）。

基于学习的解决方案[35]、[36]中的现有数据集是“无视差”的合成数据集，无法代表实际应用场景。而基于特征的解决方案中的数据集太少，无法支持深度学习训练。
为了使我们的框架在真实的场景中具有泛化能力，我们还提出了一个包含不同重叠率、不同视差度以及室内、室外、夜晚、黑暗、雪和缩放等可变场景的大型真实世界图像拼接数据集。 这里，我们将重叠率定义为重叠区域占图像总区域的百分比。
在实验中，我们评估了我们在单应性估计和图像拼接方面的性能。实验结果证明了该方法在真实的场景中的优越性. 本文的主要贡献如下：
·提出了一种无监督的深度图像拼接框架，该框架由无监督的图像粗对齐和无监督的图像重建两个阶段组成。
·我们提出了第一个用于无监督深度图像拼接的大型真实的数据集（据我们所知），我们希望它能够作为基准数据集并推动其他相关研究工作。
·我们的算法优于当前最先进的算法，包括单应性估计解决方案和真实的场景中的图像拼接解决方案。即使与有监督的解决方案相比，我们的图像拼接质量仍然受到用户的青睐。

2. 相关工作

在这一节中，我们随后回顾了图像拼接和深度单应性估计方面的现有工作。

A.基于特征的图像拼接

根据消除伪影的策略不同，基于特征的图像拼接算法可以分为以下两类：
1)自适应变形方法：考虑到单一的变换模型不足以精确对准具有视差的图像，引入了多个参数化配准模型相结合的思想，尽可能多地对齐图像。在[11]中，提出了双单应性变形（DHW）来分别对准前景和背景。这种方法在由两个主要平面组成的场景中效果很好，但在更复杂的场景中表现不佳。 Lin等人[12]在不同区域应用多个平滑变化仿射（SVA）变换，增强局部变形和对齐性能。
Zaragoza等人[13]提出了尽可能投影（APAP）方法，其中图像可以被划分为密集的网格，每个网格将通过对特征进行加权来分配相应的单应性。事实上，APAP仍然会在物体边界附近表现出视差伪影，因为这些区域可能会发生剧烈的深度变化。为了摆脱这个问题，在[19]中提出了变形残差向量来区分来自不同深度平面的匹配特征，从而有助于更自然地拼接图像。

2)图像驱动方法：图像驱动的图像拼接方法也很有影响力，通过隐藏伪影来获取自然的拼接图像。受交互式数字照片蒙太奇[39]思想的启发，Gao等人[24]提出从候选单应性矩阵中选择具有最低接缝相关成本的最佳单应性。然后通过接缝切割隐藏伪影。参考内容保持变形（CPW）的优化策略[40]，Zhang和Liu [22]提出了一种基于接缝的局部对齐方法，同时使用最佳单应性保持全局图像结构。这项工作也扩展到立体图像拼接[41]。使用迭代的变形和接缝估计，Lin等人[23]找到了最佳的局部区域来拼接图像，这可以在图像拼接过程中保护曲线和直线结构。
这些基于特征的算法有助于感知自然缝合结果。然而，它们严重依赖于特征检测的质量，通常在特征较少或分辨率较低的场景中失败。

B.基于学习的图像拼接

获取用于缝合的真实的数据集非常困难。 此外，对于重叠率较低、视差较大的场景，深度拼接也相当具有挑战性。基于学习的图像拼接技术在这两个方面都存在着不足。
1)固定视角方法：视点固定的图像拼接方法是任务驱动的，针对特定的应用场景，如自动驾驶[6]、[7]、监控视频[4]而设计。在这些工作中，提出了端到端网络来拼接来自固定视图的图像，但它们不能扩展到拼接来自任意视图的图像。
2)任意视图方法：为了使用CNNs拼接来自任意视点的图像，一些研究者提出在特征检测阶段采用CNNs [32]，[33]。然而，这些方法并不能被严格地看作是一个完整的基于学习的框架。 [35]中提出了第一个完整的基于学习的框架来拼接来自任意视图的图像。 图像可以通过三个阶段进行拼接：单应性估计、空间变换和内容细化。然而，由于网络中各层是完全连通的，该方法无法处理任意分辨率的输入图像，在真实的应用中拼接质量也不令人满意。在这种深度拼接流水线之后，[36]中提出了一种边缘保留的深度图像拼接解决方案，解除了输入分辨率的限制，并显著提高了真实的场景中的拼接性能。

C.深度单应性方案

第一个深度单应性方法在[42]中提出，其中使用VGG风格[27]网络来预测图像的4个顶点的8个偏移量，从而唯一地确定对应的单应性。 Nguyen等人[37]提出了第一种无监督的深度单应性方法，其架构与[42]相同，具有有效的无监督损失。将空间注意力引入深度单应性网络，Zhang等人[38]提出了一种内容感知的无监督网络，有助于SOTA在小基线深度单应性中的性能。在[43]中，提取多尺度特征以使用图像金字塔从粗到细预测单应性。
除此之外，深度单应性网络通常被用作任意视角图像拼接框架的一部分[35]，[36]。与[37]，[38]，[42]，[43]不同的是，图像拼接中的深度单应性更具挑战性，因为输入图像之间的基线通常是2X-3X。

3.无监督粗略图像配准

给定两幅高分辨率的输入图像，我们首先使用深度单应性网络以无监督的方式估计单应性。然后，在所提出的拼接域Transformer层中，可以对输入图像进行变形以使其彼此粗略对齐。

A.无监督单应性估计

现有的无监督深度单应性方法[37]，[38]将图像块作为输入，如图3（a）中的白色方块所示。

这些方法的目标函数可以表示为公式（1）：

$L_{PW}=\left \| P(I^A)-P(H(I^B)) \right \|_1.\quad (1)$

其中 $I^A,I^B$ 分别表示参考图像和目标图像的全图像。 $P(\cdot )$ 是从完整图像中提取图像块的操作，并且 $H(\cdot)$ 使用估计的单应性来变形一个图像与另一个图像对齐。从公式 (1)中，我们可以看到，为了使变形的目标块接近参考块，利用目标块周围的额外内容来填充变形的目标块中的无效像素。（？） 我们称之为基于填充的约束策略。该策略在小基线[38]或中基线[37]单应性估计中效果良好，但在大基线情况下失败。特别地，当基线太大时（如图3（a）所示），在输入块之间可能没有重叠区域，这使得从这些块对中估计单应性变得毫无意义。

为了解决这个问题，我们设计了一个基于消融的策略来约束大基线无监督单应性估计。 具体来说，我们将完整的图像作为输入，确保所有重叠区域都包含在我们的输入中。当我们强制变形的目标图像靠近参考图像时，我们不再填充变形图像中的无效像素。相反，我们消融参考图像中的内容，其中变形的目标图像中的无效像素位于该参考图像中，如图3（b）所示。我们的目标函数为无监督单应性公式 (2)：

$L'_{PW}=\left \| H(E)\bigodot I^A-H(I^B) \right \|_1.\quad (2)$

其中， $\bigodot$ 是逐像素乘法， $E$ 是具有与 $I^A$ 相同大小的全一矩阵。
至于我们的无监督单应性网络的架构，我们采用了[36]中提出的多尺度深度模型，它将特征金字塔和特征相关性连接在一个统一的框架中，以便它可以从粗到细预测单应性，并处理相对大基线的场景。

B.拼接域Transformer层

空间Transformer层首先在[44]中提出，其中可以使用单应性模型保证梯度反向传播对图像进行空间变换。在图像拼接中，相同分辨率的输入图像可以根据不同的重叠率输出不同分辨率的拼接图像，这给深度图像拼接带来了相当大的挑战。现有的深度图像拼接方法通过扩展空间Transformer层来解决这个问题[35]，[36]。具体地，这些解决方案定义了拼接图像的最大分辨率，使得所有输入内容都可以包括在输出中。此外，网络每次都将输出相同分辨率的图像。然而，图4（a）中的白色框外部的黑色像素所占据的大部分空间被浪费。 为了解决空间浪费问题，我们提出了一个转换域Transformer层。（？） 我们将拼接域定义为拼接图像的最小外接矩形，这样在保证图像内容完整性的同时节省了最多的空间。我们的变形结果，如图4（b）所示，我们的双曲变换域Transformer层可以如下实现。

首先，我们通过公式（3）计算变形的目标图像中的4个顶点的坐标：

$(x_{k}^W,y_k^W)=(x_k^B,y_k^B)+(\Delta x_k,\Delta y_k),k\in{1,2,3,4}.\quad (3)$

其中， $(x_{k}^W,y_k^W),(x_k^B,y_k^B)$ 分别是变形后的目标图像和目标图像的第 $k$ 个顶点坐标。 $(\Delta x_k,\Delta y_k)$ 表示从上述单应性网络估计的第 $k$ 个顶点的偏移。然后，可以通过公式（4）得到变形图像的尺寸 $(H^*\times W^*)$ ：

$W^*=\max_{k\in{1,2,3,4}}\{x_k^W,x_k^A\}-\min_{k\in{1,2,3,4}}\{x_k^W,x_k^A\},\\ H^*=\max_{k\in{1,2,3,4}}\{y_k^W,y_k^A\}-\min_{k\in{1,2,3,4}}\{y_k^W,y_k^A\}.\quad (4)$

其中， $(x_k^A,y_k^A)$ 是具有与 $(x_k^B,y_k^B)$ 相同的值的参考图像的顶点坐标。最后，我们将特定值分配给来自输入图像 $(I^A,I^B)$ 的变形图像 $(I^{AW},I^{BW})$ 的像素，其可以表示为公式 (5)：

$I^{AW}=W(I^A,I),\\ I^{BW}=W(I^B,H).\quad (5)$

其中， $I,H$ 分别是单位矩阵和估计的单应矩阵。 $W(\cdot )$ 表示一个 $3\times 3$ 的变换矩阵，它的拼接域为 $H^*\times W^*$ 。
这样，我在拼接域空间中对输入图像进行变换，有效地减少了后续重构网络中特征映射所占用的空间。与[35]、[36]中使用的Transformer层相比，当GPU存储器有限时，所提出的层可以帮助拼接更大分辨率的图像。

4.无监督图像重建

考虑到单个单应性只能表示相同深度的空间变换的限制[10]，在第一阶段中，输入图像不能在真实世界数据集中完全对齐。为了突破单应性的瓶颈，我们提出从特征到像素重建拼接图像。所提出的无监督深度图像拼接框架的概述在图5中示出。重建网络可以由两个分支实现：低分辨率变形分支（图5顶部）和高分辨率细化分支（图5底部），分别学习图像拼接的变形规则和提高分辨率。

A.低分辨率变形分支

仅在高分辨率分支中重建图像是不合适的，因为随着分辨率的增加，感受野相对减小。为了保证网络的感受野能够完全感知错位区域（特别是在高分辨率和大视差的情况下），我们设计了一个低分辨率的分支，先学习图像拼接的变形规则。 如图5（顶部）所示，在我们的实现中，变形的图像首先被下采样到低分辨率，定义为 $256\times 256$ 。然后使用由3个池化层和3个解卷积层组成的编码器-解码器网络来重建拼接图像。卷积层的滤波器编号分别被设置为64、64、128、128、256、256、512、512、256、256、128、128、64、64和3。此外，采用跳过连接来连接具有相同分辨率的低级和高级特征[45]。

在这个过程中，图像拼接的变形规则是通过内容模板和接缝模板来学习的（图6）。

采用内容模板将重构图像的特征约束在变形图像附近，同时设计接缝模板将重叠区域的边缘约束为自然连续的。特别地，我们使用公式（5）获得内容掩码 $(M^{AC},M^{BC})$ ，通过用全一矩阵 $E_{H\times W}$ 代替 $I^A,I^B$ ，并且接缝掩模可由公式（6）和（7）计算：

$\nabla M^{AC}=\left | M_{i,j}^{AC}-M_{i-1,j}^{AC} \right |+\left | M_{i,j}^{AC}-M_{i,j-1}^{AC} \right |,\\ \nabla M^{BC}=\left | M_{i,j}^{BC}-M_{i-1,j}^{BC} \right |+\left | M_{i,j}^{BC}-M_{i,j-1}^{BC} \right |,\quad (6)\\ M^{AS}=C(\nabla M^{BC}*E_{3\times 3}*E_{3\times 3}*E_{3\times 3})\bigodot M^{AC},\\ M^{BS}=C(\nabla M^{AC}*E_{3\times 3}*E_{3\times 3}*E_{3\times 3})\bigodot M^{BC},\quad (7)$

其中， $(i,j)$ 表示坐标位置， $*$ 表示卷积运算， $C$ 将所有元素裁剪到0和1之间。然后，我们将低分辨率下的内容损失和接缝损失设计为公式 (8)和 (9)：

$L_{Content}^l=L_P(S_{LR}\bigodot M^{AC},I^{AW})+L_P(S_{LR}\bigodot M^{BC},I^{BW}),\quad (8)\\ L_{Seam}^l= L_1(S_{LR}\bigodot M^{AS},I^{AW}\bigodot M^{AS}) +\\ L_1(S_{LR}\bigodot M^{BS},I^{BW}\bigodot M^{BS}),\quad (9)$

其中， $S_{LR}$ 是低分辨率拼接图像。 $L_1,L_P$ 分别表示L1损失和感知损失[46]。为了使重建图像的特征尽可能接近变形图像的特征，我们计算了VGG-19 [27]的层“conv5_3”上的感知损失，其深度足以缩小变形图像之间的特征差异。下一步，低分辨率无监督变形的总损失函数可以用公式（10）表示：

$L_{LR}=\lambda_cL_{Content}^l+\lambda_sL_{Seam}^l,\quad (10)$

其中， $\lambda_s,\lambda_c$ 是对内容约束和接缝约束的权重。

B.高分辨率细化分支

在低分辨率分支初始化变形后，我们开发了一个高分辨率细化分支，以提高分辨率和细化拼接图像。 高分辨率是指第一级输出的分辨率。实际上，在我们的数据集中，分辨率大于512 × 512。为了说明高分辨率分支的效果，我们在图7中展示了两个分支的输出。

这个分支完全由卷积层组成，如图5（底部）所示，这意味着它可以处理任意分辨率的图片。 具体来说，它由三个单独的卷积层和八个resblock组成[47]，其中每层的滤波器数量设置为64，除了最后一层的滤波器数量设置为3。为了防止底层信息随着卷积网络的深入而逐渐被遗忘，第一层的特征被添加到倒数第二层。此外，每个resblock由convolution、relu、convolution、sum和relu组成。

我们将 $S_{LR}$ 上采样到变形图像的分辨率，并将它们连接在一起作为该分支的输入。输出是高分辨率拼接图像 $S_{HR}$ 。在此基础上，推导出了高分辨精化分支 $L_{HR}$ 的损失函数公式（11），并与公式（10）进行了比较：

$L_{HR}=\lambda_cL_{Content}^h+\lambda_sL_{Seam}^h,\quad (11)$

其中， $L_{Content}^h,L_{Seam}^h$ 表示高分辨率下的内容损失和接缝损失，可使用公式（8）和（9），通过用 $S_{HR}$ 和高分辨率掩模替换 $S_{LR}$ 和低分辨率掩模。在计算高分辨率 $L_P$ 时，我们采用VGG-19的层“conv3_3”，因为该层比“conv5_3”（用于低分辨率 $L_P$ ）浅，并且使用该层的输出更清晰。

C.目标函数

高分辨率分支被设计为细化拼接图像，但它往往会导致拼接图像中的伪影，因为分辨率的增加会相对减少网络的感受野（更多细节可以在第V-D节中找到）。为了使我们的网络能够同时提高分辨率和消除视差伪影，提出了一个内容一致性损失，如公式（12）：

$L_{CS}=\left \| S_{HR}^{256\times 256}-S_{LR} \right \|_1,\quad (12)$

其中， $S_{HR}^{256\times 256}$ 是通过将 $S_{HR}$ 转换为 $256\times 256$ （即低分辨率分支中输出的分辨率）而获得的。

考虑到所有的约束条件，我们得出我们的图像重建阶段的目标函数，公式 (13)：

$L_R=w_{LR}L_{LR}+w_{HR}L_{HR}+w_{CS}L_{CS},\quad (13)$

其中， $w_{LR},w_{HR},w_{CS}$ 表示各部分的重量。

D.从特征到像素的重建

为了展示从特征到像素的学习过程，我们在图8中可视化了低分辨率变形分支的特征图。在编码阶段的最开始，网络只关注重叠区域，而非重叠区域的特征都被抑制。

接下来，随着分辨率的降低，提取和重建更深层次的语义特征。在解码器阶段，网络开始关注除了重叠区域之外的非重叠区域。随着分辨率的恢复，更清晰的特征图被重建。最后，拼接图像在像素级重建。

5.实验

最后实验验证证明了该模型的有效性。

A. 数据集和实现细节

1）数据集：

为了训练我们的网络，我们还提出了一个从可变运动视频中获得的无监督深度图像拼接数据集。在这些视频中，有一些来自[38]，还有一些是我们自己拍摄的。通过从这些具有不同间隔时间的视频中提取帧，我们得到了具有不同重叠率的样本（图9（b））。此外，这些视频不是由围绕光学中心旋转的摄像机捕获的，并且拍摄的场景远离平面结构，这意味着该数据集包含不同程度的视差（图9（c））。此外，该真实世界数据集还包括室内、室外、夜间、黑暗、雪地和缩放等可变场景（图9（a））。

为了定量描述不同重叠率和不同视差度在我们的数据集中的分布。我们将重叠率分为3个水平，并定义了大于90%的高重叠率、60%-90%的中等重叠率和小于60%的低重叠率。 该分类标准根据[37]、[38]、[42]制定，其中[38]为高重叠率下的代表性工作。 拟定数据集的平均重叠率大于90%。变形COCO（扰动< 32）数据集[42]的平均重叠率约为75%，而[37]、[42]是中等重叠率的代表性著作。此外，为了准确描述视差，我们利用全局单应矩阵将目标图像与参考图像进行粗配准，然后计算粗配准图像中对应特征点的最大失准误差来表示视差的大小。通过这种方式，我们将视差分为两个级别：误差小于30个像素的小视差和误差大于30个像素的大视差。图9（c）直观地展示了不同视差的差异。

特别是，我们得到了10,440个用于训练的案例和1,106个用于测试的案例。 在我们的数据集中，重叠率从高到低的比例约为16%，66%和18%，而视差从小到大的比例约为91%和9%。虽然我们的数据集不包含真实数据，但我们将测试结果包含在这个数据集中，我们希望它可以作为其他研究人员跟踪和比较的基准数据集。

2）详细信息：

我们通过三个步骤训练我们的无监督图像拼接框架。首先，我们在合成数据集（Stitched MS-COCO [35]）上训练我们的深度单应性网络150个epochs。其次，我们在所提出的真实的数据集上微调单应性网络50个epochs。第三，我们在所提出的真实的数据集上训练深度图像重建网络20个epochs。所有的训练过程都是无监督的，这意味着我们的框架只需要参考/目标图像作为输入，不需要标签。优化器是Adam [48]，具有指数衰减的学习率，初始值为 $10^{-4}$ 。我们将 $\lambda_s,\lambda_c$ 设为2和 $10^{-6}$ 。并且， $w_{LR},w_{HR},w_{CS}$ 分别被设置为100、1和1。在测试中，拼接两幅分辨率为512×512的输入图像大约需要0.4s。该框架的所有组件都在TensorFlow上实现。训练和测试都在NVIDIA RTX 2080 Ti的一个GPU上进行。

B.单应性估计的比较

为了客观地评估所提出的基于消融的无监督深度单应性的性能，我们分别在合成数据集和真实的数据集上将我们的解决方案与 $I_{3\times 3}$ ，SIFT [49]+RANSAC [50]，DHN [42]，UDHN [37]，CA-UDHN [38]和LB-DHN [36]进行了比较。 $I_{3\times 3}$ 将3 × 3单位矩阵称为“无变形”单应矩阵以供参考，SIFT+RANSAC被选为传统单应矩阵解决方案的代表，因为它优于大多数传统解决方案，如[37]、[38]所示。 DHN、UDHN、CA-UDHN和LB-DHN是深度学习解决方案，其中UDHN和CA-UDHN是无监督解决方案，均采用基于填充的策略来训练网络。

1）合成数据集：

第一个比较实验是在Warped MS-COCO上进行的，这是最有名的用于深度单应性估计的合成数据集。 所有的学习方法都是在Warped MS-COCO上训练的。结果在表Ⅰ中示出，其中“Ours_v1”是以无监督方式用该数据集训练的模型。从表Ⅰ中，我们可以看到：
(1)与已有的无监督深度单应性算法（UDHN，CA-UDHN）相比，我们的算法具有更好的性能，其中CA-UDHN是小基线深度单应性的SOTA解。然而，由于其有限的感受野，CA-UDHN在该数据集中的性能退化至接近 $I_{3\times 3}$ 的性能。
(2)在对LB-DHN采用基于消融的无监督损失后，4pt单应性RMSE（均方根误差）增加，这意味着该损失不适合于这种“无视差”合成数据集。

2）真实的数据集：

然后，我们对建议的真实的数据集进行了比较，该数据集由不同程度的视差组成。 由于该数据集缺乏真实数据，因此我们采用重叠区域的PSNR和SSIM来评估性能，其计算公式为（14）：

$PSNR_{overlap}=PSNR(H(E)\bigodot I^A,H(I^B)),\\ SSIM_{overlap}=SSIM(H(E)\bigodot I^A,H(I^B)),\quad (14)$

其中， $PSNR,SSIM$ 分别提供计算两个图像之间的峰值信噪比和结构相似性。
我们使用公开的预训练模型对DHN和UDHN进行测试。LB-DHN和Ours_v1在Stitched MS-COCO [35]上训练，这与Warped MS-COCO相似，重叠率较低。Ours_v2是在所提出的真实的数据集上对Ours_v1进行约50个epochs的微调的模型。通过分析表Ⅰ（b）和（c）中所示的结果，我们可以得出结论：
(1)建议的无监督解决方案（Ours_v2）优于所有的方法，包括监督的真实的数据集。
(2)虽然Ours_v1和LB-DHN都是在合成数据集上训练的，但Ours_v1在真实的数据集上取得了更好的性能，这表明所提出的无监督损失可以使网络具有更好的泛化能力。

C.图像拼接效果比较

为了验证我们的方法在图像拼接中的优势，我们将我们方法与基于特征的解决方案进行了比较，并与最近的基于学习的解决方案进行了比较（即使将我们的无监督算法与有监督算法进行比较是不公平的）。

1）与基于特征的解决方案的比较：

在本节中，我们选择全局单应性[10]、APAP [13]、鲁棒ELA [18]作为基于特征的解决方案的代表来与我们的算法进行比较。在这些方法中，我们使用全局投影变换实现了单应性变换，并通过运行APAP和稳健ELA（adaptive warping methods）的开源代码和我们的测试实例，得到了它们的拼接结果。配准后，采用图像融合技术产生拼接图像，减少伪影。具体地说，我们融合变形图像与像素加权的原则，分配一个相对较大的权重与高强度值的像素。

a）稳健性研究：

基于特征的方法的性能容易受到特征点的数量和分布的影响，导致在变化的场景中鲁棒性差。相比之下，所提出的方法克服了这个问题。为了验证这一观点，我们在测试集（1,106个样本）上测试了基于特征的方法和我们的方法。为了模拟特征量的变化，我们将测试集调整为不同的分辨率，例如， 512 × 512、256 × 256和128 × 128。随着分辨率的降低，特征的数量呈指数级减少。结果如表Ⅱ所示，其中“错误”表示程序崩溃的次数，而“失败”是指拼接不成功的次数。具体来说，我们将显著失真（图10顶部）和不可容忍的伪影（图10底部）定义为“故障”。这些方法的所有拼接结果都将与我们的数据集一起公开。比较表Ⅱ中的成功率，我们可以观察到：
（1）与基于特征的方法相比，我们的方法具有更强的鲁棒性。事实上，基于特征的解决方案的“错误”和“失败”情况主要分布在低光和室内场景中，而我们在这些具有挑战性的场景中表现良好。
（2）随着分辨率的降低，基于学习的方法的成功率会降低，而我们的方法仍然很强大。

此外，为了更直观地感知鲁棒性，图11展示了室内和黑暗场景中的两个具有挑战性的示例。由于黑暗中的样品太暗而看不清楚，我们施加图像增强以更好地展示这些结果（图11中的第3行）。这些示例对于基于特征的解决方案来说是具有挑战性的，因为这些场景中的特征难以检测。相比之下，我们的解决方案由于CNN出色的特征提取能力而成功地缝合了它们。

b）视觉质量研究：

提出的深度图像拼接框架应被视为一个整体，以任意视角的两幅图像作为输入，并输出拼接结果。因此，传统的计算重叠区域相似度的指标不适合于我们的方法。为了与其他方法进行定量比较，我们设计了视觉质量的用户研究。 具体地，我们将我们的方法与单应性、APAP和鲁棒ELA逐一进行了比较。每次在一个屏幕上显示四个图像：输入、拼接结果和单应性/APAP/稳健ELA的结果。我们的结果和另一种方法是以随机顺序说明每一次。用户可以放大图像，并且需要回答哪个结果是优选的。在“无偏好”的情况下，用户需要回答两个结果是“都好“还是“都差”。这些研究是在我们的测试集中进行的，这意味着每个用户都必须在1,106张图像中将每种方法与我们的方法进行比较。 在这项研究中，我们邀请了20名参与者，包括10名具有计算机视觉背景的研究人员/学生和10名社区外的志愿者。
结果如图12所示。忽略两者的比例，我们发现用户对我们的方法的偏好显著高于对其他方法的偏好，这意味着我们的结果在用户评价中具有更高的视觉质量。

为了进一步证明我们的性能，我们还在建议的真实的数据集（图13中的1-8行）和数据集之外的经典图像拼接实例（图13中的9-10行）上显示了拼接结果。所有的情况都有不同程度的视差。实验结果表明，该模型不仅具有良好的视觉效果，而且具有较强的泛化能力。

2）与基于学习的解决方案相比：

现有的基于学习的图像拼接方法（VFISNet [35]和EPISNet [36]）是监督学习方法，需要额外的标签来训练网络。在有监督解与无监督解的比较不公平的情况下，本文方法在鲁棒性、连续性、光照和视觉质量等方面仍优于有监督解。

a）稳健性研究：

VFISNet是第一个可以在完整的深度学习框架中拼接任意视图图像的深度图像拼接作品。 但它有一个不可忽视的缺点：它只能拼接128 × 128的图像。因此，在测量其鲁棒性时，只给出了128 × 128分辨率下的结果。表Ⅱ中的详细结果表明，我们的方法的鲁棒性优于其他有监督的方法。这可以从以下两个方面来解释：（1）我们的无监督深度单应模型在鲁棒性上优于其他方法，显著减少了由于单应估计不准确而导致的失败情况。（2）本文提出的无监督深度图像重建模型，通过对拼接图像从特征到像素的重建，有效地减少了由于不可容忍的伪影而导致的重建失败。

b）连续性研究：

有监督的深度图像拼接方法[35]、[36]牺牲了边缘（参考图像和目标图像的非重叠区域之间的边缘）的连续性以最小化伪影。虽然EPISNet中提出了一种边缘保留网络来削弱这一问题，但在一些测试用例中，这一问题仍然存在。图14（a）的左图显示了不连续性，其中不连续区域被加框并放大。这个问题在我们的无监督方法中得到了完美的解决，如图14（a）的右图所示。这归功于我们对接缝掩膜的约束，该约束强制重叠区域的边缘靠近变形图像之一。

c）光照研究：

本文方法的另一个优点是可以平滑两幅图像之间的光照差异。与EPISNet的比较如14（b）所示。监督方法不能平滑照度差，因为它们是在输入图像中没有照度差的合成数据集中训练的（由于缺少拼接的标签，监督方法不能在真实的数据集中训练）。相反，我们的方法是在真实的场景中训练的，可以有效地学习如何平滑由于拍摄位置不同而造成的光照差异。

d）视觉质量研究：

与基于特征的用户研究方法类似，我们采用相同的策略对每个参与者进行调查，并将我们的方法与现有的基于学习的方法进行比较。考虑到VFISNet只能在128 × 128的分辨率下工作，我们使用双三次插值来调整拼接图像的大小。结果如图15所示。由于Bicubic插值在放大图像时不可避免地会带来模糊，因此首选我们的方法的概率比首选VFISNet+Bicubic的概率更大。即使与EPISNet相比，我们的方法仍然是首选的拼接图像的视觉质量。除此之外，图13展示了这些监督方法的视觉比较结果，其中绿色矩形表示严重模糊的区域，红色矩形指向不连续的边缘。为了更直观地感知我们的视觉质量，图16中示出了更多的结果，其中输入和输出一起展示。

D. 消融研究

在本节中，消融研究在网络架构和损耗函数上执行。在体系结构中，验证了低分辨率分支（LR分支）和高分辨率分支（HR分支）的有效性;在损失方面，测试了内容损失、接缝损失和内容一致性损失（CS 损失）的功能。所有研究的结构的性质示于表Ⅲ中。

从图17所示的结果中，我们可以观察到：
(1)最直接的LR分支和内容损失的组合可以实现图像拼接。然而，仍有两个问题未解决：接缝失真（图17中的第1行、第4列）和分辨率有限。在我们的分析中，接缝失真是所提出的内容损失的副作用。
(2)与v1相比，HR分支能够有效提高拼接图像的分辨率。作为代价，引入了一些伪影（图17中的第2行，第2列），因为HR分支卷积核的感受野对于更高分辨率的图像来说太小。
(3)与v2相比，v3使用建议的接缝损失消除了接缝失真（图17中的第3行，第4列）。通过对重叠区域边缘施加像素级相似性约束，有效地抑制了接缝变形。然而，在拼接图像中仍然存在伪影（图17中的第3行，第2列）。
(4)与v3相比，我们的方法使用所提出的CS损失消除了伪影（图17中的第4行，第2列）。 CS的丢失作为感受野的增强剂，其促进HR分支的感受野远离LR分支的感受野。

6.局限性和今后的工作

该方法通过对拼接图像进行特征到像素的重构，消除了视差伪影。它本质上仍然是一种基于单应性的拼接方法。随着视差的增加，第一级的配准性能会下降，而重建网络的负担也会变得更重。当视差太大时，重构网络可以将未对齐作为要重构的新对象来对待。图18中示出了一个示例。未来，我们希望从两个方向解决这个问题：1）提高配准网络的配准性能，以减轻重构网络的负担。 2)增加重建网络的感受野，以处理剩余的大失准。

7.结论

本文提出了一种无监督的深度图像拼接框架，包括无监督的图像粗对齐和无监督的图像重建。在对齐阶段，提出了一种基于消融的损失函数来约束大基线场景下的无监督深度单应性估计，并设计了拼接域Transformer层来对拼接域空间中的输入图像进行变形处理，在重建阶段，提出了一种无监督深度图像重建网络来对拼接后的图像进行从特征到像素的重建，以无监督重建的方式消除伪影。此外，本文还提出了一个用于无监督深度图像拼接的真实的数据集，希望能为其他方法提供一个基准数据集。实验结果证明，我们的方法优于最新的解决方案. 即使与有监督的深度图像拼接方案相比，我们的无监督方法的结果在视觉质量上仍然受到用户的青睐，但重建能力并不是无限的，这意味着我们的方案可能在视差极大的场景中失败。考虑到我们的第一阶段基本上是基于一个单应性的配准模型，可以通过将线性深度单应性网络扩展到非线性单应性模型来提高处理大视差的能力。此外，通过增大重构网络的感受野可以进一步提高重构性能，这也是未来工作的一个探索方向。