【论文阅读】SuperPoint:Self-Supervised Interest Point Detection and Description (CVPR 2018)

最新推荐文章于 2024-04-29 20:49:29 发布

吃吃今天努力学习了吗

最新推荐文章于 2024-04-29 20:49:29 发布

阅读量1.1k

点赞数 2

分类专栏：论文笔记文章标签：论文阅读

本文链接：https://blog.csdn.net/m0_38068229/article/details/131931353

版权

论文笔记专栏收录该内容

34 篇文章 1 订阅

订阅专栏

摘要

这篇论文介绍了一个自监督框架，用于训练适用于计算机视觉中大量多视图几何问题的兴趣点检测器和描述符。与基于图像块的神经网络不同，我们的全卷积模型在完整尺寸图像上进行操作，并在一次前向传递中联合计算像素级兴趣点位置和相关描述符。我们引入了Homographic Adaptation（同质适应），这是一种多尺度、多单应性的方法，用于提高兴趣点检测的可重复性，并进行跨域适应（例如，从合成到真实场景）。我们的模型经过Homographic Adaptation在MS-COCO通用图像数据集上训练后，能够比初始预适应的深度模型和任何其他传统角点检测器更多次地检测到更丰富的兴趣点集合。与LIFT、SIFT和ORB相比，该最终系统在HPatches上产生了最先进的单应估计结果。

1. 引言

在几何计算机视觉任务（如同时定位与建图SLAM、运动结构SfM、相机标定和图像匹配）中，第一步是从图像中提取兴趣点。兴趣点是图像中的2D位置，其在不同光照条件和视角下是稳定和可重复的。在数学和计算机视觉的多视图几何领域[9]，存在基于这样一个假设的定理和算法，即兴趣点可以在图像之间可靠地提取和匹配。然而，大多数实际计算机视觉系统的输入是原始图像，而不是理想化的点位置。

卷积神经网络已被证明在几乎所有需要图像作为输入的任务上优于手工设计的表示方法。特别是，完全卷积神经网络，它们可以预测2D的"关键点"或"地标"，已经在多种任务中得到了深入研究，如人体姿态估计[31]、物体检测[14]和房间布局估计[12]。在这些技术的核心是一个大型数据集，其中包含由人工标注者标记的2D地面真实位置。

看起来很自然地将兴趣点检测类似地构建为一个大规模监督的机器学习问题，并训练最新的卷积神经网络架构来检测它们。然而，与语义任务（如人体关键点估计）相比，语义上并未明确定义兴趣点检测的概念。因此，用强监督方式训练卷积神经网络来识别兴趣点并非易事。

为了不使用人工监督来定义实际图像中的兴趣点，本文提出了一种使用自我训练的自监督解决方案。在这种方法中，我们创建了一个大规模的伪真实兴趣点位置数据集，其中的标注是由兴趣点检测器本身进行监督，而不是通过大规模的人工标注工作来完成的。

为了生成伪真实兴趣点，我们首先在我们创建的合成数据集Synthetic Shapes上训练一个全卷积神经网络。这个合成数据集由简单的几何形状组成，兴趣点的位置没有模糊性。我们称训练得到的兴趣点检测器为MagicPoint，它在合成数据集上的性能显著优于传统的兴趣点检测器（详见第4节）。尽管在域适应方面存在困难，MagicPoint在真实图像上表现出乎意料的好。然而，当与各种图像纹理和模式上的经典兴趣点检测器进行比较时，MagicPoint错过了许多潜在的兴趣点位置。为了弥补在真实图像上的性能差距，我们开发了一种多尺度、多变换技术- Homographic Adaptation。 Homographic Adaptation 旨在实现自监督训练兴趣点检测器。它多次扭曲输入图像，帮助兴趣点检测器从多个不同的视角和尺度观察场景（详见第5节）。我们将Homographic Adaptation与MagicPoint检测器结合使用，以提高检测器的性能并生成伪真实兴趣点（见图2b）。得到的检测结果更加可重复，并且能够应用于更广泛的数据集；我们将得到的检测器命名为SuperPoint。

在检测到稳健且可重复的兴趣点之后，最常见的步骤是为每个点附加一个固定维度的描述符向量，用于更高级的语义任务，例如图像匹配。因此，最后我们将SuperPoint与描述符子网络相结合（见图2c）。由于SuperPoint架构由深度卷积层堆叠组成，可以提取多尺度特征，因此很容易将兴趣点网络与额外的子网络结合，用于计算兴趣点描述符（详见第3节）。最终得到的系统如图1所示。
在这里插入图片描述

在这里插入图片描述

2. 相关工作

在这里插入图片描述
传统的兴趣点检测器已经得到了充分的评估。FAST角点检测器是第一个将高速角点检测视为机器学习问题的系统，而尺度不变特征变换(SIFT)可能仍然是计算机视觉中最知名的传统局部特征描述符。

我们的SuperPoint架构受到了近年来将深度学习应用于兴趣点检测和描述符学习的最新进展的启发。**在匹配图像子结构的能力上，我们与UCN和在较小程度上与DeepDesc相似；然而，它们都不执行任何兴趣点检测。**另一方面，LIFT是一种最近引入的替代SIFT的卷积方法，它在保持传统的检测-描述流程方面较为接近。LIFT流程包括兴趣点检测、方向估计和描述符计算，但还需要经典SfM系统的监督。这些差异在表1中总结。

在监督程度的另一个极端，Quad-Networks [23] 采用无监督方法解决了兴趣点检测问题；然而，他们的系统是基于图像块的（输入是小的图像块），而且相对浅的2层网络。TILDE [29] 兴趣点检测系统采用了与Homographic Adaptation类似的原理；然而，他们的方法并未充分利用大型全卷积神经网络的强大功能。

我们的方法还可以与其他自监督方法、从合成到实际领域自适应方法进行比较。Honari等人[10]采用了类似于Homographic Adaptation的方法，称为“等变地标变换”。此外，Geometric Matching Networks [20] 和 Deep Image Homography Estimation [4] 也使用了类似的自监督策略来创建用于估计全局变换的训练数据。然而，这些方法缺乏兴趣点和点对应，而这些通常是进行更高级计算机视觉任务（如SLAM和SfM）所必需的。还存在联合姿态和深度估计模型[33, 30, 28]，但不使用兴趣点。

3. SuperPoint 架构

设计了一个名为SuperPoint的全卷积神经网络架构，它在完整大小的图像上进行操作，并在单次前向传递中生成兴趣点检测，并伴随着固定长度的描述符（见图3）。该模型具有一个单一的共享编码器，用于处理和减少输入图像的维度。在编码器之后，架构分为两个解码器“头部”，它们学习特定任务的权重 - 一个用于兴趣点检测，另一个用于兴趣点描述。大部分网络参数在这两个任务之间是共享的，这与传统系统有所不同，传统系统首先检测兴趣点，然后计算描述符，缺乏在两个任务之间共享计算和表示的能力。

Shared Encoder

SuperPoint架构使用VGG风格的编码器来减少图像的维度。编码器由卷积层、空间下采样（通过池化）和非线性激活函数组成。我们的编码器使用三个最大池化层，这使得我们可以将图像大小为 $H \times W$ 的图像定义为 $Hc = H /8$ 和 $W c = W /8$ 。我们把低维输出中的像素称为“单元”，其中编码器中的三次2×2非重叠最大池化操作将导致8×8像素单元。编码器将输入图像 $I ∈ R^{H×W}$ 映射到一个中间张量 $B ∈ R^{Hc×Wc×F}$ ，其中 $Hc$ 和 $W c$ 的空间尺寸较小，通道深度较大（即 $Hc < H ， W c < W$ 且 $F > 1$ ）。

Interest Point Decoder

对于兴趣点检测，输出的每个像素对应于输入图像中该像素的“point-ness”概率。在密集预测的标准网络设计中，通常会使用编码器-解码器对，其中通过池化或步幅卷积来减少空间分辨率，然后通过上卷积操作将其上采样回完整分辨率，例如SegNet中所做的操作。然而，上采样层往往会增加大量计算量，并可能引入不希望的棋盘状伪影，因此我们设计了一个明确的解码器来减少模型的计算量。

兴趣点检测头计算 $X ∈ R^{Hc×Wc×65}$ ，并输出大小为 $R^{H×W}$ 的张量。其中65个通道对应于本地、非重叠的8×8像素网格区域，再加上一个额外的“无兴趣点”Dustbin。经过通道维度的softmax处理后，移除Dustbin维度，并进行 $R^{Hc×Wc×64} ⇒ R^{H×W}$ 的reshape。

65的含义是特征图的每一个像素表示原图 8 × 8 的局部区域加上一个当局部区域不存在特征点时用于输出的Dustbin通道，通过Softmax以及Reshape的操作，最终特征会恢复为原图大小。注意我们是先对包括Dustbin通道的特征图进行Softmax操作后再进行Slice的。假如没有Dustbin通道，当 8 × 8 的局部区域内没有特征点时，经过Softmax后64维的特征势必还是会有一个相对较大的值输出，但加入Dustbin通道后就可以避免这个问题，因此需要在Softmax操作后再进行Slice。最后再经过NMS后相应较大的位置即为输出的特征点。

在这里插入图片描述

Descriptor Decoder

描述子头部计算 $D ∈ R^{Hc×Wc×D}$ ，并输出大小为 $R^{H×W×D}$ 的张量。为了输出一个密集的L2归一化的固定长度描述子图，我们使用了类似UCN 的模型，首先输出一个半密集的描述子网格（例如，每8个像素一个描述子）。相较于密集输出描述子，半密集输出描述子减少了训练内存并保持运行时的可处理性。然后，解码器执行描述子的双三次插值，然后对激活进行L2归一化，使其长度为单位长度。这个固定的、非学习的描述子解码器如图3所示。

Loss Functions

最终的损失是两个中间损失的和：一个用于兴趣点检测器的损失 $L_p$ ，和一个用于描述子的损失 $L_d$ 。我们使用一对经过合成变换的图像，这两个图像具有(a) 伪真实兴趣点位置和 (b) 来自随机生成的关联矩阵H的真实对应关系。这使得我们可以同时优化这两个损失，给定一对图像，如图2c所示。我们使用λ来平衡最终的损失：
在这里插入图片描述

兴趣点检测器的损失函数 $L_p$ 是在 $x_{hw} ∈ X$ 上进行的全卷积交叉熵损失。我们将相应的真实兴趣点标签集称为Y，其中的各个元素称为 $y_{hw}$ 。在这里插入图片描述
描述符损失应用于第一张图像中的所有描述符单元 $d_{hw} ∈ D$ 和第二张图像中的 $d^′_{h^′w^′} ∈ D^′$ 的所有对。由单应性引起的（h，w）单元与（h′，w′）单元之间的对应关系可以写为：

其中， $p_{hw}$ 表示（h，w）细胞中心像素的位置， $H_{p_{hw}}$ 表示将细胞位置 $p_{hw}$ 乘以单应性矩阵 $H$ 并除以最后一个坐标，这通常在欧几里德坐标和齐次坐标之间转换时使用。我们用S表示一对图像的所有对应关系。为了平衡负对应关系多于正对应关系的事实，我们添加了一个权重项λd。我们使用带有正边距 $m_p$ 和负边距 $m_n$ 的铰链损失。描述符损失定义为：

在这里插入图片描述

距离小于8个像素时认为匹配成功，一个方格对应的其实是一个特征点。
此外来分析下合页损失：当匹配成功时，当相似度大于正样本阈值时会进行惩罚；当匹配失败时，当相似度小于负样本阈值时会进行惩罚。在这样的损失函数作用下，当匹配成功时，相似度就应该很大，匹配失败时，相似度就应该很小。

4. Synthetic 预训练

本节描述了训练方法，训练一个名为MagicPoint的基本检测器（如图2a所示），该检测器与Homographic Adaptation结合使用，以自监督的方式为未标记的图像生成伪GT兴趣点标签。

4.1 Synthetic Shapes

目前并不存在一个大规模的包含兴趣点标记图像的数据库。因此，为了启动我们的深度兴趣点检测器，我们首先创建了一个大规模的合成数据集，称为"Synthetic Shapes"，它包含通过合成数据渲染的四边形、三角形、线段和椭圆形状的简化2D几何形状。这些形状的示例如图4所示。在这个数据集中，我们通过用简单的Y形、L形和T形接头，以及小椭圆的中心和线段的端点建模兴趣点，从而消除了标签的歧义。

一旦合成图像被渲染，我们对每个图像应用了单应性变换，以增加训练样本的数量。数据是实时生成的，网络不会重复看到任何示例。虽然"Synthetic Shapes"中所代表的兴趣点类型只是现实世界中所有潜在兴趣点的一个子集，但在训练兴趣点检测器时，我们发现它在实践中表现得相当不错。

4.2 MagicPoint

我们使用SuperPoint架构的检测器路径（忽略描述子头）并在Synthetic Shapes上对其进行训练，得到了一个名为MagicPoint的模型。有趣的是，当我们在Synthetic Shapes数据集上将MagicPoint与其他传统的角点检测方法（如FAST [21]、Harris角点 [8]和Shi-Tomasi的“Good Features To Track” [25]）进行评估时，我们发现我们的方法有明显的性能优势。我们使用1000个保留图像在Synthetic Shapes数据集上测量平均精度（mAP），并将结果报告在Table 2中。在存在成像噪声的情况下，传统的检测器表现较差-在Figure 4中显示了这方面的定性示例。更详细的实验可以在附录B中找到。
我们惊讶地发现MagicPoint在真实世界的图像上表现得相当不错，特别是在具有明显角点结构的场景，比如桌子、椅子和窗户等。然而，在所有自然图像中，与同样的传统检测器相比，它在视点变化下的可重复性上表现不佳。这激发了我们对使用真实世界图像进行自我监督训练的方法，我们称之为Homographic Adaptation。

5. Homographic Adaption

我们的系统从基本的兴趣点检测器和目标域（例如，MS-COCO）中的大量未标记图像中自我启动。在自我监督范式下运行（也称为自我训练），首先为目标域中的每个图像生成一组伪真实兴趣点位置，然后使用传统的监督学习方法。我们方法的核心是将随机单应性应用于输入图像的扭曲副本，并将结果合并的过程，我们称之为同视变换自适应（Homographic Adaptation）（见图5）。

在这里插入图片描述

Formulation

单应性提供了相机围绕相机中心旋转、距离对象较远的场景以及平面场景的准确或几乎准确的图像到图像的变换。此外，由于大部分世界都是相当平面的，当从不同视点看到相同的三维点时，单应性是一个很好的模型。由于单应性不需要3D信息，它们可以随机采样并且很容易应用于任何2D图像，只涉及到双线性插值等少量计算。因此，单应性是我们自我监督方法的核心。

让 $f_θ(·)$ 表示我们希望适应的初始兴趣点函数，I表示输入图像，x表示结果兴趣点，H表示随机单应性，即： $X = f_θ(I)$ 。
一个理想的兴趣点检测器应该在单应性方面具有协变性。对于函数 fθ(·)，如果输出随输入进行变换，那么它对于单应性 H 是具有协变性的。换句话说，具有协变性的检测器将满足以下条件，对于所有的单应性 H： $HX = f_θ(H(I))$ 。变换一下可得： $X = H^{-1}f_θ(H(I))$

实际上，一个检测器不会完全具有协变性——不同的单应性H会导致不同的兴趣点x。Homographic Adaptation的基本思想是对足够大的随机H样本进行经验求和（参见图5）。因此，对样本的聚合将产生一个新的、改进的、超级兴趣点检测器。
在这里插入图片描述

选择 Homographies

并非所有的3x3矩阵都适合用于Homographic Adaptation。为了采样好的单应性矩阵，以代表合理的相机变换，我们将潜在的单应性矩阵分解为更简单、不太表达能力强的变换类别。我们使用截断正态分布在预定范围内采样平移、缩放、平面旋转和对称透视变形。这些变换会与初始的根中心裁剪一起组合，以避免边缘伪影。 这个过程如图6所示。

在对图像应用Homographic Adaptation时，我们使用大量单应性变换的输入图像的平均响应。单应性变换的数量Nh是我们方法的一个超参数。我们通常将第一个单应性矩阵设置为单位矩阵，以便 $N_h=1$ 在我们的实验中对应于不进行适应性调整。我们进行了一个实验来确定Nh的最佳值，将Nh的范围从小的 $N_h=10$ ，到中等的 $N_h=100$ ，再到大的 $N_h=1000$ 。我们的实验表明，在进行100次以上的单应性变换时，收益递减。在MS-COCO的一组保留图像上，我们在没有任何Homographic Adaptation的情况下获得了0.67的可重复性得分，在执行 $N_h=100$ 次变换时，可重复性提升了21%，在 $N_h=1000$ 次变换时，可重复性提升了22%，因此使用100次以上的单应性变换的附加效益是微不足道的。有关这个实验的更详细分析和讨论，请参见附录C。
在这里插入图片描述

迭代的Homographic Adaptation

我们在训练时应用Homographic Adaptation技术来提高基本的MagicPoint架构在真实图像上的泛化能力。这个过程可以重复进行，持续地进行自我监督和改进兴趣点检测器。在我们所有的实验中，经过应用Homographic Adaptation后的模型我们称之为SuperPoint，并在图7中展示了在HPatches图像上的定性进展。

在这里插入图片描述

6. 实验细节

在本节中，我们提供了训练MagicPoint和SuperPoint模型的一些实现细节。这个编码器采用了类似VGG的架构，包含八个3x3的卷积层，大小分别为64-64-64-64-128-128-128-128。每两层之间有一个2x2的最大池化层。每个解码器头都有一个包含256个单元的3x3卷积层，然后是一个包含65个单元的1x1卷积层（用于兴趣点检测），或者包含256个单元的1x1卷积层（用于描述符）。网络中的所有卷积层后面都跟着ReLU非线性激活和BatchNorm归一化。

为了训练完全卷积的SuperPoint模型，我们首先使用在Synthetic Shapes上训练的基础MagicPoint模型开始。MagicPoint架构是SuperPoint架构去掉了描述符头部。MagicPoint模型使用合成数据进行了200,000次迭代的训练。由于合成数据简单且快速渲染，数据是实时生成的，因此网络不会看到相同的例子两次。

我们使用MS-COCO 2014训练数据集的80,000张图像和MagicPoint基本检测器生成伪标签。这些图像的分辨率设置为240×320，并转换为灰度图像。使用 $N_h = 100$ 的Homographic Adaptation生成标签。我们对SuperPoint进行了联合训练，同样使用240×320的灰度CO-CO图像。对于每个训练样本随机采样一个单应性变换。在这里，我们采样的单应性变换的范围比在Homographic Adaptation阶段更为受限，以更好地模拟成对匹配的目标应用（例如，避免采样极端的平面旋转，因为它们在HPatches数据集中很少见）。通过应用单应性变换，创建所需的输入和标签。在所有实验中，描述符的大小为D = 256。我们使用权重项 $λ_d = 250$ 来平衡描述符学习。描述符的hinge loss使用正margin mp = 1和负margin mn = 0.2。我们使用因子λ = 0.0001来平衡两个损失。

所有训练使用PyTorch进行，使用mini-batch大小为32，并使用ADAM求解器，其默认参数为lr = 0.001和β =（0.9，0.999）。我们还使用标准的数据增强技术，如随机高斯噪声、运动模糊、亮度级别变化，以提高网络对光照和视角变化的鲁棒性。

7. 实验

运行时间

在Titan X GPU上，我们测量了SuperPoint架构的运行时间，使用了Caffe [11]深度学习库提供的定时工具。模型的单次前向传递在输入大小为480×640的情况下大约需要11.15毫秒，这会产生点检测位置和一个半稠密的描述符图。为了在480×640的高分辨率上采样描述符，不需要创建整个稠密的描述符图，只需要从1000个检测到的位置中采样即可，这个过程在CPU上实现的双三次插值和L2归一化大约需要1.5毫秒。因此，我们估计在GPU上系统的总运行时间约为13毫秒或70帧每秒。

HPatches重复性

在我们的实验中，我们在MS-COCO图像上训练SuperPoint，并使用HPatches数据集进行评估。HPatches包含116个场景和696个独特图像。前57个场景展示了光照的大变化，而后面59个场景则展示了视角的大变化。

为了评估SuperPoint模型的兴趣点检测能力，我们在HPatches数据集上测量重复性。我们将其与MagicPoint模型（在Homographic Adaptation之前）、FAST [21]、Harris [8]和Shi [25]进行比较，这些模型都是使用OpenCV实现的。重复性是在240×320分辨率下计算的，每个图像检测到300个点。我们还变化了应用于检测的非极大值抑制（NMS）。我们使用正确距离为ǫ = 3像素。应用更大量的NMS有助于确保点在图像中均匀分布，对于某些应用如ORB-SLAM [17]，在粗网格的每个单元格中强制弹出最小数量的FAST角点检测是有用的。

总的来说，Homographic Adaptation技术将MagicPoint转变为SuperPoint，显著提高了重复性，特别是在大视角变化下。结果如表3所示。SuperPoint模型在光照变化下优于传统的检测器，在视角变化下与传统的检测器表现相当。

HPatches Homography Estimation（HPatches中的单应矩阵估计）

为了评估SuperPoint兴趣点检测器和描述子网络的性能，我们在HPatches数据集上比较它们的匹配能力。我们将SuperPoint与三个著名的检测器和描述子系统进行比较：LIFT，SIFT和ORB 。对于LIFT，我们使用作者提供的预训练模型（Picadilly）。对于SIFT和ORB，我们使用默认的OpenCV实现。我们使用正确距离ǫ = 3像素来计算重复性（Rep）、最大似然估计（MLE）、最近邻平均精度（NN mAP）和匹配得分（MScore）。我们在480×640分辨率下最多计算1000个点，并对每对图像计算多个指标。为了估计单应矩阵，我们将第一张图像中所有检测到的兴趣点+描述子与第二张图像中所有兴趣点+描述子进行最近邻匹配。我们使用OpenCV中的实现（findHomography()配合RANSAC）来计算最终的单应矩阵估计。

单应矩阵估计的结果如表4所示。在不同的ǫ正确距离阈值下，SuperPoint的表现优于LIFT和ORB，并与SIFT表现相当。图8展示了SuperPoint与LIFT、SIFT和ORB的质量对比的实例。请参阅附录D，了解更多单应矩阵估计示例对。SuperPoint往往会产生更多的正确匹配，并且密集地覆盖图像，特别是在光照变化下表现出色。

我们在几乎所有的指标上都优于LIFT。LIFT在大多数指标上也被SIFT超越。这可能是因为HPatches包含了室内的序列，而LIFT是在一个室外序列上训练的。我们的方法是在数十万个经过扭曲的MS-COCO图像上训练的，这些图像展现了更大的多样性，更接近HPatches的多样性。对于子像素精度的单应矩阵（ǫ = 1），SIFT表现很好，并且具有最低的平均定位误差（MLE）。这可能是因为SIFT执行了额外的子像素定位，而其他方法没有执行这一步骤。

ORB在重复性（Rep.）上取得了最高的得分；然而，它的检测结果往往在图像中形成稀疏的聚类，如图8所示，因此在最终的单应矩阵估计任务上得分较低。这表明仅仅优化重复性并不能在更高级的匹配或估计阶段获得更好的结果。

SuperPoint在描述符相关的指标，如最近邻平均精确率（NN mAP）和匹配得分（M. Score）方面表现出色，这证实了Choy等人和Yi等人的研究结果，即学习表示在描述符匹配方面优于手动调整的表示方法。

8. 结论

我们提出了一个完全卷积神经网络架构，用于兴趣点检测和描述，并通过一种自我监督的域适应框架称为Homographic Adaptation进行训练。我们的实验证明了以下几点：（1）可以将从合成数据集获得的知识转移到现实世界的图像中，（2）可以将稀疏的兴趣点检测和描述建模为单一高效的卷积神经网络，（3）得到的系统在几何计算机视觉匹配任务（如同态估计）中表现出色。

未来的工作将探究Homographic Adaptation是否可以提高语义分割（例如SegNet [1]）和目标检测（例如SSD [14]）等模型的性能。我们还将仔细研究兴趣点检测和描述（以及潜在的其他任务）之间的相互影响方式。

最后，我们相信我们的SuperPoint网络可以用于解决所有3D计算机视觉问题中的视觉数据关联，如SLAM和SfM，并且基于学习的视觉SLAM前端将实现机器人技术和增强现实等领域更强大的应用。

$A u t h or : C hi er$

吃吃今天努力学习了吗

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】SuperPoint:Self-Supervised Interest Point Detection and Description (CVPR 2018)

这篇论文介绍了一个自监督框架，用于训练适用于计算机视觉中大量多视图几何问题的兴趣点检测器和描述符。与基于图像块的神经网络不同，我们的全卷积模型在完整尺寸图像上进行操作，并在一次前向传递中联合计算像素级兴趣点位置和相关描述符。我们引入了Homographic Adaptation（同质适应），这是一种多尺度、多单应性的方法，用于提高兴趣点检测的可重复性，并进行跨域适应（例如，从合成到真实场景）。
复制链接

扫一扫