无监督图像拼接中的学习逐像素对齐
Jia, Q., Feng, X., Liu, Y., Fan, X., & Latecki, L. J. (2023, October). Learning pixel-wise alignment for unsupervised image stitching. In Proceedings of the 31st ACM International Conference on Multimedia (pp. 1392-1400).
0. 摘要
图像拼接旨在对同一视图中的一对图像进行对齐。对于图像拼接来说,生成具有自然结构的精确对齐是一个挑战,因为在非共面的实际场景中,没有更宽视场图像作为参考。在本文中,我们提出了一个无监督图像拼接框架,突破了单应性估计中的共面约束,实现了在有限重叠区域下的精确像素级对齐。首先,我们通过迭代密集特征匹配结合误差控制策略来生成全局变换,以减轻由大视差引入的差异。其次,我们提出了一个嵌入在大规模特征提取器和相关特征增强模块中的像素级变形网络,以显式学习输入之间的对应关系,并在新颖的约束下生成精确的像素级偏移,这些约束既适用于重叠区域也适用于非重叠区域。值得注意的是,我们利用重叠区域中的像素级偏移来引导非重叠区域的调整,根据内容和结构一致性约束,使得两个区域之间实现自然过渡,并在整个拼接图像中抑制畸变。所提出的方法在性能上达到了最先进的水平,大幅超越了传统和深度学习方法。它还实现了最短的执行时间,并在传统数据集上具有最佳的泛化能力。
1. 引言
图像拼接旨在估计一对图像之间的准确变换并将它们对齐到同一视图中。这是一个经过深入研究的主题,具有广泛的应用,例如智能手机上的全景图[42]、机器人导航[7]和虚拟现实[1, 18]。然而,在各种实际场景中生成高质量的拼接图像仍然具有挑战性,特别是当没有更宽视场图像作为参考时。
单应性变换[5, 9, 44]是最广泛使用的图像拼接模型,它利用重叠区域中的特征相关性作为约束来估计全局单应性矩阵[30],并将整个目标图像变换到参考图像的视图中(参见图1(a)中的全局变形部分)。大多数现有方法通过假设整个场景是共面的来估计全局单应性,导致拼接结果中的严重错位和伪影[30],如图1(b)的放大区域所示。然而,理论上,单应性变换仅适用于共面场景,而在实践中几乎不存在。因此,传统[3, 12, 20, 21, 25]和深度学习方法[6, 28, 45]都致力于寻找近似解决方案以获得准确的对齐。为了减少非共面对单应性估计的影响,一些工作将图像划分为多个均匀块作为近似共面区域来计算多个单应性变换,例如传统的双单应性变形(DHW)[12]和尽可能投影的多单应性方法(APAP)[43]。然而,基于现有单应性估计的方法至少有三个主要限制:(1)全局或划分的图像块没有共面保证,这只是一个近似解决方案;(2)全局对齐估计整个图像的单个或有限数量的单应性变换,这对于实现像素级准确对齐是不够的,如图1(a)所示;(3)没有真实的拼接结果作为参考,这对于训练深度学习方法是一个挑战。因此,实现每个像素的非均匀对齐至关重要。
相比之下,现有的像素级对齐方法仅适用于几乎完全重叠的图像对,例如医学图像配准[46]或连续视频帧之间的配准[13]。 它们通过从整幅图像中搜索图像对之间的特征相关性来估计整幅图像在低分辨率下的像素级偏移。 与图像配准不同,图像拼接具有有限的重叠区域和大视差,在无监督框架中缺乏对非重叠区域的约束。 因此,现有的图像配准方法不能对非重叠区域产生正确的偏移,并且不能输出整个图像的拼接结果。此外,图像配准采用全局特征匹配策略,容易在图像拼接的有限重叠区域中引入不匹配的特征。
在本文中,我们提出了一个粗到细的无监督图像拼接网络,以实现像素级对齐。首先,我们估计一个全局单应性来处理大规模视点变化,为输入图像对提供统一的对齐。其次,我们探索纹理和几何一致性约束,以在重叠区域内实现非均匀的像素级对齐。此外,我们利用重叠区域来引导非重叠区域在内容和结构上的一致性,以调整整个拼接图像的对齐。我们的方法在拼接图像上展示了有希望的性能,如图1(c)的放大区域所示,呈现更少的伪影和错位。大量的定性和定量结果验证了所提出方法的有效性。我们的贡献是三方面的:
• 我们提出了一个粗到细的无监督图像拼接框架,从均匀变换开始,逐步过渡到各向异性的像素级偏移,首次突破了单一单应性共面约束。
• 我们设计了一个重叠区域引导的像素级变形网络,具有大规模特征提取器和相关特征增强模块,以捕捉像素级对应关系,通过高分辨率偏移实现准确对齐。
• 我们利用重叠区域的像素级对齐来引导非重叠区域的无监督调整,保持整个拼接图像在有限重叠区域条件下的一致结构和内容。
我们的方法在所有具有视觉优势的拼接结果的挑战性数据集上大幅超越了传统和深度学习的最新方法,并且执行时间最短。特别是,与现有最佳方法[21]相比,平均对齐误差降低了34.42%。第3节和第4节详细阐述了我们的贡献。
2. 相关工作
传统图像拼接方法。传统图像拼接方法通常通过匹配锚点来估计最优的全局变换。SIFT [26] 和 SURF [2] 广泛用于检测和匹配特征点,随后使用随机样本一致性(RANSAC)[10] 来估计图像对的单应性。由于单一单应性变换仅适用于理想的共面场景,一些方法尝试为不同的非共面区域提供自适应的变形方案[3, 12, 20, 25]。然而,对于大视差图像,仍然会出现不希望的畸变。为了减少有限单应性估计引入的畸变和伪影,APAP [43] 估计多个块的单应性,以覆盖不同区域的变形。随后,Liao等人[24]提出了单视图变形(SPW),利用点和线对作为锚点。Jia等人[17]考虑了线-点对(LPC)的局部共面关系,利用匹配线-点对的共面性来对齐图像,同时抑制非重叠区域的畸变。此外,Du等人[8]提出了一种几何结构保持拼接方法(GES-GSP)。然而,参数设置对这些传统方法有严重影响,使它们对视差变化敏感。特别是,传统方法需要高计算复杂度来检测和匹配特征,而在匹配特征数量有限时容易失败。
基于深度学习的图像拼接方法。与传统方法相比,基于深度学习的方法在单应性估计上更具适应性,因为卷积神经网络的强大的表示学习能力可以在低纹理图像中产生密集匹配特征[14, 35]。此外,基于深度学习的单应性估计在合成图像[6, 29, 31]或小视差数据集[45]上取得了有利的结果。然而,合成图像仍然假设整个场景是共面的,这在现实中几乎不存在。