DKM: Dense Kernelized Feature Matching for Geometry Estimation

最新推荐文章于 2025-05-01 21:42:17 发布

DZ海边数猩猩

最新推荐文章于 2025-05-01 21:42:17 发布

阅读量1.6k

点赞数 12

文章标签：人工智能

本文链接：https://blog.csdn.net/sinat_37145472/article/details/139666650

版权

整体流程

首先，我们提出了一种基于核回归的全局匹配器和嵌入解码器。这导致鲁棒的粗匹配。其次，我们提出了通过堆叠特征图和深度卷积核进行变形细化的方法。第三，我们提出了一种通过一致的深度和平衡采样方法学习密集置信度图的简单方法。
在这里插入图片描述

在本文中，我们考虑从两个图像（IA, IB）估计3D场景几何的任务。对于匹配，我们选择密集特征匹配范式，即估计从A到B的密集变形WA→B和密集置信度pA→B，对于不可匹配的像素，置信度为零。从这些确定和不确定的完整匹配集中，将采样（无放回）一个子集。最后，使用鲁棒估计方法从采样的匹配中推断几何。任务可以分为五个阶段。

I. 特征金字塔提取（Feature Pyramid Extraction）：

● 在第一阶段，使用多尺度特征金字塔从两幅图像A和B中提取特征。这些特征由一系列不同分辨率的特征图组成，通常由ResNet编码器生成，并且具有共享权重。
● 提取A和B的特征金字塔：
$\{ \phi_{A_l} \}^L_{l=1} = F_\theta(IA), \{ \phi_{B_l} \}^L_{l=1} = F_\theta(IB)$
其中Fθ是一个编码器（我们使用在ImageNet-1K上预训练的ResNet50），l ∈ {1, …, L}是多尺度特征的索引（在我们的方法中l = 1对应于步长为1的RGB值，l = L对应于步长为2^(L−1) = 32的深度特征）。我们称粗略特征为（φA coarse, φB coarse）和精细特征为（φA fine, φB fine）。在这项工作中，粗略特征对应于步长{32, 16}，精细特征对应于{8, 4, 2, 1}。

II. 粗略全局匹配（Coarse Global Matching）：

● 第二阶段，基于深度特征建立粗略的全局匹配。这一步骤通过将潜在的全局匹配嵌入到嵌入解码器Eθ中来实现。作者提出了一种改进的方法，将全局匹配视为一个嵌入的概率回归问题，并结合了一个强嵌入解码器。
● 在第二阶段，我们使用全局匹配器Gθ从深度特征中估计粗略的全局变形和置信度。这里，潜在的全局匹配通过嵌入器Eθ嵌入。我们提出将嵌入构建为使用高斯过程（GP）公式的概率回归问题。计算出嵌入后，嵌入解码器Dθ将嵌入解码为密集变形和置信度，即：
$\hat{W}_{A \rightarrow B}^{coarse}, \hat{p}_{A \rightarrow B}^{coarse} = G_\theta(\phi_{A_{coarse}}, \phi_{B_{coarse}})$
$G_\theta(\phi_{A_{coarse}}, \phi_{B_{coarse}}) = D_\theta \left( \mu_{A \rightarrow B} \oplus \phi_{A_{coarse}} \right)$
在这里插入图片描述

全局匹配作为回归问题：
○ 作者将全局匹配问题表述为一个嵌入的坐标回归问题。目标是找到一个映射，将图像A中的像素特征φ映射到图像B中的空间坐标χ。
高斯过程（GP）回归：
○ 选择高斯过程（GP）作为回归框架。GP是一种非参数回归方法，适用于特征匹配问题。在GP回归中，输出被视为联合高斯分布的随机变量集合，其核心是选择一个合适的核函数来定义输出之间的协方差。
核函数选择：
○ 作者选择了指数余弦相似性核，这是一种常用于处理多模态匹配问题的核函数。核函数定义了输出空间中的协方差结构。
坐标嵌入：
○ 为了处理多模态性问题，即现实场景中可能存在的重复结构，作者使用了余弦嵌入来保持多模态性。这种嵌入方式允许GP后验与图像网格上的嵌入相关联，从而处理多模态匹配。
嵌入解码器：
○ 虽然嵌入回归提供了强大的概率表示，但大多数密集方法需要一个单一的变形估计来进行后续细化。作者使用CNN嵌入解码器Dθ将预测均值重塑为网格形式，并预测每个像素的坐标和匹配有效性。
全局匹配器的实现：
○ 作者在两个尺度的特征上使用全局匹配器，并让较细尺度的嵌入解码器接收来自较粗尺度解码器的上下文特征图。

III. 变形细化（Warp Refinement）：

● 在第三阶段，我们细化Gθ的粗略变形，即：
$\hat{W}_{A \rightarrow B}, \hat{p}_{A \rightarrow B} = R_\theta \left( \phi_{A_{fine}}, \phi_{B_{fine}}, \hat{W}_{A \rightarrow B}^{coarse}, \hat{p}_{A \rightarrow B}^{coarse} \right)$
其中 ˆW 是预测的变形，ˆp 是预测的置信度，Rθ 是一组细化器。这通常通过局部相关性体积细化完成。在这项工作中，我们另外堆叠了B的变形特征图，并使用大尺寸深度卷积核。
在这里插入图片描述

变形细化过程：
○ 在全局匹配器提供了粗略的变形估计之后，接下来的任务是对其进行细化，以获得更精确的匹配结果。这一过程通过一系列CNN细化器来实现，这些细化器逐步预测变形的残差。
输入表示：
○ 对于每个细化器，输入包括精细级别的特征图（φA fine, φB fine）以及上一步得到的上采样的粗略变形（ˆW A→B coarse）和置信度（ˆpA→B coarse）。这些输入数据被用来预测变形和置信度的相对偏移。
使用深度可分离卷积：
○ 作者提出使用深度可分离卷积核（Depthwise Separable Convolution）来构建细化器。这种卷积核结构可以有效减少计算量，同时保持性能。
堆叠特征图：
○ 为了增强变形细化的精度，作者采用了堆叠特征图的方法。这包括将先前变形得到的图像B的特征图进行堆叠，并与局部相关性结合，作为细化器的输入。
细化器架构：
○ 细化器由多个深度可分离卷积块组成，这些卷积块后面跟着1x1的卷积层。作者发现每个尺度使用8个细化器块可以获得最佳结果。
细化过程：
○ 细化过程是递归进行的，从粗略的变形开始，逐步细化直到达到全分辨率。每一步的细化都是基于前一步的输出和当前尺度的特征图。
性能提升：
○ 作者通过实验验证了所提出的变形细化方法的有效性。使用深度可分离卷积和堆叠特征图的输入表示，相比于之前的工作，显著提高了变形的准确性。
鲁棒性和准确性：
○ 作者展示了DKM方法在处理大视点变化下的图像时，能够生成准确且鲁棒的变形和置信度估计。