【论文精读】Natural Image Stitching Using Depth Maps

一、论文

题目:基于深度映射的自然图像拼接

0摘要

自然图像拼接(NIS)的目的是从两个重叠的图像中创建一个自然的拼接图像,这些图像从不同的观看位置捕捉相同的3D场景。当场景是非平面的且相机基线很宽时,不可避免地会出现挑战,因为在这种情况下视差变得不可忽略。在本文中,我们提出了一种使用深度图的新NIS方法,该方法在重叠和非重叠区域根据视差生成自然外观的拼接图像。首先,我们根据特征匹配及其深度值估计像素到像素的变换。然后,我们对目标图像进行三角剖分,并根据顶点的位置和校正后的深度值估计多个局部单应性,每个三角形一个。最后,通过分片单应性的反向映射合成扭曲图像。实验结果表明,该方法不仅在重叠区域提供了精确的对齐,而且在非重叠区域提供了虚拟自然度。

1引言

自然图像拼接(NIS)是计算机视觉中研究得很好的一个问题,它将从不同观察位置捕获的多个重叠图像合成为一个自然全景图[25]。NIS的基本问题是2->1:给定两个输入图像,一个参考图像和一个目标图像,生成一个输出图像,该图像实际上是在参考观察位置捕获的,其中包括尽可能自然的重叠和非重叠内容。因此,NIS中的第一个关键任务是如何将目标图像扭曲成参考图像的扩展视图,从而使扭曲结果不仅在重叠区域中内容一致,而且在非重叠区域中视图一致。
当拍摄场景是平面的或视点是静止的时,单应性对于完成双重任务是有效的[9]。然而,当3D场景由具有非平面表面的背景对象或甚至具有不连续深度的前景对象组成时,同时基线较宽,单应性无法生成自然外观的拼接图像,因为它不够灵活,无法描述视差视图之间的基础3D几何体(见图1(b))。
许多自适应扭曲模型致力于解决NIS中的视差问题。假设给定了两幅输入图像之间的一组特征匹配,一些方法将目标图像划分为相邻的面片(像素[6]、超像素[13]、矩形[28]、三角形[14]、不规则区域[31]),并使用加权匹配通过局部单应性扭曲每个面片;一些方法将目标划分为矩形单元,并通过使用局部(相似[29]或仿射[30])加全局(相似[4]或线性化投影[17])几何不变量的能量最小化同时使其变形。其他NIS方法注重结合加权匹配和几何不变量[2,15,18],增加特征匹配的密度[16,20],追求局部对齐,从而实现无缝合成[7,19]。然而,现有的自适应扭曲模型仍不足以描述大视差视图之间的基本几何结构,因此它们有时仍会创建未对齐或看起来不自然的拼接图像(见图1(c-e))。
众所周知,深度图对于表示立体场景的3D几何图形非常强大,深度学习能够从单个目标图像中提取密集的深度图[8]。直观地说,深度图有助于对齐非匹配区域甚至非重叠区域(见图1(f))。
在本文中,我们提出了一种新的NIS方法,在重叠和非重叠区域使用深度图来对抗大视差。假设输入图像和目标图像的深度图之间存在一组特征点匹配,1首先根据点匹配及其深度值估计像素到像素的变换;2然后对目标图像进行三角剖分,使每个三角形区域在三维空间中共面;根据顶点的位置及其校正的深度值,估计局部单应性,每个三角形一个;3最后通过反向映射分片单应性生成翘曲图像。实验结果表明,所提出的NIS方法的拼接图像不仅在重叠区域内精确对齐,而且在非重叠区域内看起来几乎自然(见图1(g))。
论文的其余部分组织如下。第二节回顾了自适应NIS和视图合成的相关工作。第3节提出了一种使用深度贴图的新NIS方法。第4节描述了实现细节。第5节给出了实验结果。第6节总结全文。

2相关工作:

NIS使用加权匹配 假设两幅输入图像之间存在一组特征匹配,一些NIS方法采用分段单应作为自适应扭曲模型,其中每个局部单应通过一些加权方法确定。Gao等人提出了一种双单应性扭曲模型,其中两个代表性单应性(远平面+地平面)首先被聚类,然后通过它们的加权和来估计每个像素的局部单应性[6]。Zheng等人修改了多单应变形模型,其中首先对多个投影一致单应进行聚类,并对一个非重叠单应进行平均,然后通过它们的加权和确定每个像素的局部单应[31]。Zaragoza等人提出了一种新的“尽可能投影”(APAP)扭曲方法,首先将目标图像划分为规则的网格单元,然后通过移动DLT来估计每个单元的局部单应性,DLT为更靠近目标单元的特征匹配分配更多权重[28]。Joo等人将行匹配添加到APAP的框架中[12]。最近,Lee和Sim提出了APAP的一个改进版本,其中目标图像被划分为超级像素而不是单元,每个超级像素的局部单应性通过移动DLT来估计,DLT为位于目标超级像素更相似平面区域上的特征点分配2个以上的权重,而不是明确地依赖于空间位置[13]。[13]最显著的优点是,它能够针对重叠区域中的大视差实现不连续扭曲模型。此外,Li等人提出了APAP的无加权版本,将目标图像划分为相邻的三角形区域,其顶点为匹配的特征点或边界点,然后通过与两个输入视图之间的相对位置相关联的顶点匹配来估计每个三角形的局部单应性[14]。三角剖分的优势显而易见,因为三角形比其他面片更容易实现共面假设。然而,[14]不允许顶点分割,以至于无法处理大视差。相反,该方法使用深度贴图来实现三角剖分顶点分割,不仅在重叠区域处理大视差,而且在非重叠区域处理大视差。
NIS使用几何不变量 一些NIS方法没有使用加权匹配来扭曲非匹配面片,而是将目标图像分割成单元,然后通过变形同时扭曲它们,其中每个网格都会受到惩罚,以尽可能地经受一些几何不变量(局部+全局)。Zhang和Liu提出了一种网格变形,使用相似作为局部几何不变量,使用投影作为全局几何不变量[29]。Chen和Chuang使用相似性作为局部和全局几何不变量[4]。[2,18]全面研究了全局相似性的估计。为了解决宽基线图像的NIS问题,Zhang等人提出了一种网格变形方法,使用仿射作为局部几何不变量,使用水平垂直保持作为全局几何不变量[30]。为了生成透视一致的拼接图像,Liao和Li使用线性化投影[15]作为局部和全局几何不变量[17]。最近,Jia等人提出了一种新的局部共面不变量和一种新的全局共线不变量[11]。请注意,局部和全局几何不变量分别在重叠和非重叠区域中扮演插值和外推正则化器的角色,而目标图像的深度图可以提供更精确的正则化器。
使用深度图的视图合成 一般来说,视图合成(视图插值)[3]的任务是从场景的源视图生成三维场景的新视图,其中通常采用深度图从源视图位置描述三维场景。有不同的方法来提取源图像的深度图。Penner和Zhang使用多幅图像的深度估计来完成新颖的视图合成[22]。Wiles等人隐式利用单图像深度预测来实现端到端视图合成[27]。事实上,NIS中的图像扭曲也可以解释为扩展视图合成,将目标图像作为源图像,参考视图作为虚拟视图。然而,本文的重点是使用深度图来改善NIS的对齐和自然度,而不是在视图合成任务中进行外观建模[32]和遮挡修复[24]。

3方法

在本节中,我们提出了使用深度图的NIS方法。符号:大写字母如K、R、H表示实矩阵,小写字母如x、y、z表示实值,粗体字母如x、e’表示实向量;符号x~表示x的齐次表示,符号[e’]×表示由e’表示的斜对称矩阵。

3.1基于深度映射的P2P变换

给定目标图像It和参考图像Ir,假设其相机矩阵为:
在这里插入图片描述

其中K∈R3×3和K '∈R3×3是两个校准矩阵,R∈SO(3)是旋转,t∈R3是平移。
设X∈R3是一个世界点,x∈R2和x’∈R2是它在It和Ir中的像点,z∈R是它从P测得的深度值,则
在这里插入图片描述

由于K是可逆的,通过插入X=zK−1x~到
在这里插入图片描述

∼ 表示按比例相等,我们得到
在这里插入图片描述

让H∞ = K’RK−1和e’=K’t,我们将(4)简化为
在这里插入图片描述

实际上,H∞是两个视差视图之间的无限单应性,e’是Ir视图中的对极。
假设在 It 和 Ir 之间有一组特征点匹配,并且给了它们来自P的对应深度值,那么就可以基于公式(5)估计H∞和e’。相反,如果H∞ 和e’已知,则可以通过公式(5)建立从 It 到 Ir 的像素到像素(P2P)转换,前提是给出了 It 的密集深度图。关于估计H∞和e’的实现细节将在4.1节中呈现。
通过P2P变换,可以通过前向映射直接渲染扭曲的目标图像。图1(f)显示了来自图1(a)的直接映射结果,其中“连续”黑色区域指示两个视图之间的现有视差,“离散”黑色斑点指示由于前向映射而丢失的像素。
另外需要注意的是,当深度映射不够可靠时,P2P转换可能会出现对齐错误。图2显示了通过直接映射的SIFT点匹配的对齐误差。因此,为了提高对准精度并实现反向映射,随后提出了一种使用深度映射的局部扭曲方法。

3.2基于深度映射的局部单应

让我们考虑x的世界平面的三参数族,
在这里插入图片描述

其中m∈R3。因此,通过将行向量mT乘以(2),我们得到
在这里插入图片描述

这意味着一个平面可以由三个非共线图像点及其深度值唯一确定。
进一步地,通过将(7)代入(5),我们得到
在这里插入图片描述

众所周知,两个视图之间的世界平面图像满足单应性。因此
在这里插入图片描述

描述由世界平面(6)诱导的两个不同视图之间的三参数单应性族。
给定 It 的一个三角形区域▲和从P开始测量的三个顶点深度值,假设它对应的世界点集是共面的,那么我们可以根据(7)确定m▲。相反,当给定其三角剖分,使得每个▲在3D空间中共面时,则可通过(9)建立局部单应H▲,每个三角形一个,估计m▲。
关于估算m▲的实施细节将在第4.2节中介绍。

3.3基于分片单应性的图像扭曲

最后,通过分片单应性的反向映射生成扭曲图像Iw:
在这里插入图片描述

其中▲’是由H▲正向映射的▲的三角域,π(v)=(v1/v3,v2/v3)T 表示 v∈ R3。
请注意,在通过不同的单应性进行映射后,Iw中的两个相邻域可能会重叠。关于{H-1▲}向后纹理映射的实现细节将在第4.3节中介绍。

4实现

在本节中,我们将介绍所提出方法的一些实现细节。

4.1估计无限单应与极线

为了估计H∞和e’,我们首先准备一组SIFT[21]点匹配{(pi,qi)}Ni=1,在 It 和 Ir 之间,It 的深度图z=d(x),可以直接从RGBD数据集获得,或者在深度数据不可用时通过monodepth2[8]估计。
类似于从数据集{(pi,qi)}Ni=1 估计单应性的DLT算法,H∞和e’ 可以从扩充数据集{(pi,qi,d(pi))}Ni=1 通过求解以下线性最小二乘问题来估计。
在这里插入图片描述

其中h是由H∞的条目组成的9向量, 矩阵A和B垂直叠加为
在这里插入图片描述

对于i=1……N,(xi,yi)和(x’i,y’i)是pi和qi的坐标,zi=d(pi)。当N≥ 6时,(11)可以通过奇异值分解(SVD)有效地求解。
为了更稳健的估计,我们在RANSAC框架中使用6点SVD解算器作为最小解算器。借助深度数据,单个RANSAC估计器可以识别视差视图之间足够大的一致点匹配集,而现有方法需要多个RANSAC估计器来识别多个单应性。
图3显示了三种稳健拟合方法特征匹配的比较结果:基于单应性的RANSAC [5] (homo-RANSAC)、多次采样的RANSAC [28] (multi-RANSAC)和基于深度的RANSAC (depth-RANSAC)。depth-RANSAC方法能够以最少的时间(有时甚至比纯RANSAC方法更短)识别出足够多的特征匹配。

在这里插入图片描述

为了更准确地估计,通过求解以下非线性最小二乘(LS)问题,对H∞和e’ 进行了细化

在这里插入图片描述

其中是RANSAC估计器确定的内联线的指数集。(12) 可以通过Levenberg-Marquardt(LM)算法有效地求解。
估计H∞和e’ 的算法在算法1中进行了总结。
在这里插入图片描述

4.2估计局部单应性

为了建立多个局部单应性{H▲},我们首先根据目标图像的深度图将其划分为SLIC[1]段,并在每个段的边界上进行多边形匹配。用{vj}Mj=1表示由目标图像中的所有点匹配和所有多边形顶点组成的顶点集,然后可以通过Delaunay三角剖分算法计算三角剖分(见图5)。
为了更好的局部对齐,我们首先对每个匹配点 pi 的深度值进行校正
在这里插入图片描述

式中(y,y’)是校正的点匹配,该点匹配使受极线约束的重投影误差最小化,即
在这里插入图片描述

经过上述深度校正后,方程(7)将实现最优的三参数单应性族,以便在顶点处进行精确的局部对齐。
为了获得更好的局部自然度,我们对每个顶点vj的深度值进行了修正,一个三角形一个三角形的修正
在这里插入图片描述

其中m¯▲是将三角形内的内点最佳拟合到平面的参数,即最优解

在这里插入图片描述

其中C▲和d▲垂直堆叠
在这里插入图片描述

经过上述深度校正后,方程(7)将为三角形内部的平面局部自然度提供最佳的3参数单应性族。
为了实现全局不连续且局部平滑的翘曲模型,应进一步聚集并平均同一顶点的多个校正深度值。
全局不连续性意味着一个顶点vj在扭曲后应该被允许分裂成一些不相交的顶点。对于顶点的多个深度值,如果最大差小于阈值 η,则认为它们是相同的类,否则我们通过多模型拟合方法将它们聚类成不同的类(10),即,
在这里插入图片描述

图5显示了顶点聚类的实验结果。
局部平滑意味着那些在扭曲后共享一个公共顶点的三角形在扭曲前应该在该公共顶点共享相同的深度值。因此,我们将其成员类中多个深度值的平均值指定给公共顶点。请注意,对于包含匹配特征点的校正深度值的类,我们将该值而不是平均值指定给公共顶点。
图4显示了关于局部单应性估计的消融研究。如果不对三角形顶点进行深度校正,视差区域很难对齐,这会导致拼接结果不对齐。
算法2总结了估算三角形{H▲}的算法。
在这里插入图片描述

4.3反向纹理映射

由于允许顶点分割,分割的三角形可能在重叠区域甚至非重叠区域相互重叠。当这种情况发生时,即两个不同的局部单应性H▲和H▲’将It中的两个不同点p和p’映射到Iw中的同一点q,我们比较d(H−1 ▲(q~))和d(H)−1▲’ (q~))并在反向纹理贴图中使用深度值较小的像素,因为它更接近摄影机。
图5显示了反向纹理映射的一些实验结果。最后,我们在算法3中总结了我们的方法。
在这里插入图片描述

5实验

通过一系列对比实验来评估我们提出的NIS方法的性能。比较方法包括全局单应(Homo)、APAP[28]、NISwGSP[4]和LFA[14]。现有方法的参数是按照原论文的建议设置的。在实验中,我们使用VLFeat[26]提取并匹配SIFT[21]特征点,使用我们的鲁棒拟合算法去除异常值。为了确保公平的比较,除了C++中实现的NISWGSP方法之外,在所有测试方法中都使用相同的匹配数据。为了突出图像对齐的准确性,所有拼接结果都是通过简单的平均混合生成的。

5.1结果比较

图6显示了米德尔伯里的Midd2测试用例的比较结果。在图6(a)所示的输入图像中,可以从灯罩、帽子和玩具的相对位置看到视差。在Homo、APAP、NISwGSP和LFA的结果中,hat区域存在明显的偏差,如图6(b)-(e)所示。此外,Homo、APAP和LFA的结果在左边界上也存在不自然性失真。
我们的方法产生了令人满意的结果,在重叠区域精确对齐,在非重叠区域几乎自然(见图6(f))。由于篇幅限制,仅给出一个比较结果。补充资料中提供了其他数据集的更多比较结果。

5.2局限和失败案例

我们的方法假设目标图像的深度估计相对准确。此外,假设目标图像的三角剖分在每个三角域的空间中是共面的。图7显示了我们提出的方法的失败示例。图7(a)中的输入图像具有较大的相机基线和剧烈的深度变化。从树干和背景的相对位置可以观察到明显的视差。由于目标图像的估计深度图不够精确,Delaunay三角剖分和后续深度值聚类容易出错(见图7(e-f))。请注意,在深度数据的帮助下,我们的方法仍然在非重叠区域生成比其他翘曲模型更自然的缝合结果(见图7(b-d))。

6结论

本文提出了一种基于深度映射的NIS方法。我们的主要贡献是提供了一种自适应方法,利用NIS中的深度贴图来解决视差问题。实验结果表明,该方法不仅在重叠区域提供了精确的对齐,而且在非重叠区域提供了虚拟自然度。

二、论文总结

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值