【论文翻译】Extremely Dense Point Correspondences using a Learned Feature Descriptor

使用基于学习的特征描述符的稠密点匹配

Extremely Dense Point Correspondences using a Learned Feature Descriptor
Xingtong Liu, Yiping Zheng, Benjamin Killeen, Masaru Ishii, Gregory D. Hager, Russell H.Taylor, and Mathias Unberath
论文链接: https://arxiv.org/abs/2003.00619

摘要

从内窥镜视频中获得高质量的3D重建在许多临床应用中发挥着重要作用,包括手术导航,它们使直接视频-CT配准成为可能。虽然有很多方法可以实现一般的多视图三维重建,但这些方法往往不能在内镜视频上提供令人满意的性能。部分原因是当面对缺乏纹理的解剖表面时,建立能够匹配点对并驱动重建的局部描述符比较困难。基于学习的稠密描述符通常具有较大适应性,支持全局信息编码,可用于消除匹配错误。在这项工作中,我们对稠密描述符学习提出了一个有效的自监督训练方案和新的损失函数设计。通过与鼻窦内窥镜数据集上的最近发布的局部稠密描述符的直接比较,我们证明我们提出的稠密描述符可以推广到更多的患者和手术场景,从而在模型密度和完整性方面极大地提高了 SfM 的性能。我们还在一个公共稠密光流数据集和一个小型 SfM 公共数据集上对我们的方法进行了评估,进一步证明了我们的方法的有效性和通用性。源代码可在 这里获得。

1. 引言

背景

在计算机视觉中,对应点估计的目的是在图像中的二维点与相应的三维位置之间找到匹配关系。许多潜在的应用都依赖于这一基本任务,如 SfM、SLAM、图像检索和基于图像的定位。特别是,SfM和SLAM已被证明对基于内窥镜的手术导航[19]、视频- CT配准[14]和病灶定位[38]有效。但这些成功都得依赖于,SfM和SLAM能够从未标记的视频中同时估计被观察场景的稀疏3D结构和相机轨迹。
SLAM和SfM的优势是互补的。在需要实时估计的应用中,例如外科手术导航,SLAM提供了一个计算效率很高的框架。鲁棒的相机轨迹跟踪要求能从图像流中生成稠密3D重建,但计算约束通常将SLAM限制在局部最优。这通常会导致漂移,特别是当轨迹环路不明显时。另一方面,SfM优先考虑稀疏三维结构的高密度和准确性,这是由于在BA中使用了耗时的全局优化,这将SfM限制在可以接受离线估计的应用程序中。
在视频-CT配准中,无标记方法依赖于对应估计来提供稀疏重建和相机轨迹。然后用配准算法[31]将重构结果配准到CT表面模型,这需要SfM,因为它依赖于稠密和精确的3D重建。估计的相机轨迹的准确性也是至关重要的,以便每个视频帧的相机姿态与CT表面模型对齐。然而,对于从内窥镜视频中估计相机轨迹,典型的SfM或SLAM无法产生高质量的重建或精确的相机轨迹。最近的工作旨在通过改变处理视频的程序来缓解这一缺陷,我们将在下面讨论。在这项工作中,我们专注于开发一个更有效的特征描述符,它用于特征提取和匹配模块,以大幅增加提取对应的稠密性。(如图1)
在这里插入图片描述
图1:SfM在内窥镜中的定性比较。图中显示了不同特征描述符在SfM任务中对同一鼻窦内窥镜视频序列的表现。所比较描述子分别是本文提出的、UCN[5]使用最近提出的Hardest Contrastive Loss[4]训练得到的,HardNet++[21]以及SIFT[17]。第一行显示了相同的视频帧和相应的SfM稀疏3D点的重投影,第二行显示稀疏重建和相关统计信息,每张图像第一行的数字为重建3D点的数量,每张图片第二行的两个数字分别是使用的图像帧数目和视频序列中的图像帧总数。红点是在第一行的视频帧中不可见的点,黄点在显示帧中可见,但是使用其他帧重构的,蓝点的三角化重构才涉及到所显示的帧。

相关工作

局部特征描述符由使用像素块计算的特征向量组成,其大小和方向通常由关键点检测器确定,如Harris[9],FAST[28]和DoG[17]。人工设计的局部特征描述符SIFT[17]可以说是匹配估计和相关任务中最流行的特征描述符。近年来SIFT的改进变种不断被提出,如RootSIFT[1]、RootSIFT- PCA[3]和DSP-SIFT[6]。其中一些在基础矩阵F估计[2]、成对特征匹配和多视图重建[30]等任务中优于SIFT描述符。此外,随着深度学习的出现,基于学习的局部描述符越来越受欢迎,最近的例子有L2-Net[35]、GeoDesc[18]和HardNet[21]。尽管基于学习的方法在计算机视觉的许多领域优于人工设计的方法,但先进的SIFT变体还是与基于学习的局部描述符的表现相当或更好[2,30]。
一些稠密特征描述符已经被提出了,如DAISY[36],UCN[5]和POINT2[15]。与采用[7]中检测-描述法的局部特征描述符相比,稠密特征描述符提取图像信息时,不需要使用关键点检测器来寻找特定位置进行特征提取。因此,在需要稠密匹配的应用中,稠密描述符比局部描述符具有更高的计算效率,它们还避免了重复关键点检测[7]的可能性。另一方面,基于学习的稠密描述符与人工设计的描述符相比,通常表现出更好的性能。这是因为在足够的训练数据下,卷积神经网络(CNN)可以比人工规则更有效地编码和融合复杂的上下文和低纹理信息。我们的方法属于基于学习的稠密描述符。目前也有联合学习稠密描述符和关键点检测器的工作,如SuperPoint和D2-Net[7],或者学习一个关键点检测器来可以提高局部描述符的性能,比如GLAMpoints。
在内窥镜方面,研究人员已将SfM和SLAM应用于各种解剖视频,包括鼻[14]、胃[38]、腹部[8,19]和口腔[26]。目前流行的SfM系统如COLMAP[29],流行的SLAM系统如ORB-SLAM[23],如果没有进一步的改进,通常不能在内镜检查中取得满意的结果。在内窥镜视频中,成功的匹配估计面临着一些挑战。首先,组织形变,如结肠镜检查的视频,违反了这些系统中的静态场景假设。为了解决这一问题,研究人员提出了基于slam的方法,可以容忍场景形变[13,33]。其次,内镜中的纹理往往是平滑和重复的,这使得与局部描述符的稀疏匹配容易出错。Widya等人[38]提出在胃中散布IC染料,手动在表面添加纹理,增加局部描述符的匹配性能,这将形成更稠密和更完整的重建。Qiu等人使用激光投影仪在口腔表面投射图案,增加更多纹理,以提高SLAM系统的性能。然而,引入上述附加程序通常是不希望的,因为它会中断原有的工作流程。因此,我们不是增加纹理,而是开发一个在纹理稀缺表面上工作良好的稠密描述符,以取代这些系统中原有的局部描述符。

贡献

首先,据我们所知,这是第一次将基于学习的密集描述符应用于内镜下的多视图重建任务。其次,我们提出了一种有效的自监督训练方案,其中包含了一种新提出的相对响应损失,它可以训练出高精度的稠密描述符,并且所提出的训练方案优于在各种基于学习的描述符中使用的难负例挖掘[5,4,21]。为了进行评估,我们对鼻窦内镜数据集上的点对特征匹配和SfM任务、KITTI Flow 2015数据集[20]上的点对特征匹配以及小规模自然场景数据集[34]上的SfM任务进行了广泛的比较研究。

2. 方法

在本节中,我们描述了用于稠密描述符学习的自监督训练方案,包括整体的网络架构、训练方案、自定义层、损耗设计和稠密特征匹配方法。

整体网络架构

如图2所示,训练网络为双分支孪生神经网络。输入是一对彩色图像,分别用作源和目标。训练目标是,给定源图像中的一个关键点位置,在目标图像中找到正确对应的关键点位置。使用一种基于SIFT的SfM[14]在视频流中进行稀疏3D重建和相机位姿估计,然后利用估计的相机位姿将稀疏3D重建投影到图像上,生成真值二维点对用于训练。稠密特征提取模块是一个全卷积的DenseNet[12],它接收彩色图像并输出一个稠密描述符图,该图具有与输入图像相同的分辨率,并将特征描述符的长度作为通道维度。描述符图沿着通道维度进行归一化,以增加泛化能力[37]。对于每个源关键点位置,从源描述符图中提取相应的描述符。使用源关键点的描述符作为一个1X1卷积核,在 POI Conv层[15]中的目标描述符图上进行2D卷积,计算得到的热图表示源关键点位置与目标图像上每个位置之间的相似性。该网络使用提出的相对响应损失(RR)进行训练,以迫使热图仅在目标的真实位置呈现高响应。将描述符学习问题转化为关键点定位的思想是Liao等人提出的[15],最初用于解决 X-ray-CT 2D-3D 配准问题。
在这里插入图片描述
图2:整体网络架构。训练数据由一对源与目标图像,和源-目标真实的对应二维点关系组成。源图像和目标图像从观测到相同3D点的帧中随机选取。对于每一对图像,在每次训练迭代中从可用的点对中随机选择固定的数量。为了说明简单,图中只显示了一个源-目标点对和对应的目标热图。图中的所有概念都在“方法”章节中定义

Point-of-Interest (POI) 卷积层

该层用于将描述符学习问题转换为关键点定位[15]。对于输入的一对源图像和目标图像,从特征提取模块生成一对稠密描述符图 F s F_s Fs F t F_t Ft 。输入图像和描述符图的大小分别为 3 × H × W 3 × H × W 3×H×W C × H × W C × H × W C×H×W 。对于坐标为 x s x_s xs 的源关键点,采用最近邻采样法提取对应的特征描述符 F s ( x s ) F_s(x_s) Fs(xs),并可根据需要更改为其他采样方法。描述符的大小是 C × 1 × 1 C × 1 × 1 C×1×1,将提取的特征描述符作为一个 1 × 1 1×1 1×1 卷积核,对 F t F_t Ft 进行二维卷积运算,生成目标热图 M t M_t Mt M t M_t Mt储存了源描述符与 F t F_t Ft 中每个目标描述符之间的相似度。

相对响应损耗(RR)

损失的提出是基于目标热图应在目标关键点的真实位置处表现出高响应,而在其他位置的响应应尽可能被抑制的直觉。此外,我们不希望假设任何关于热图响应分布的先验知识,以保留多模态分布的潜力,尊重具有挑战性案例的匹配模糊性。为此,我们建议将真实位置的响应与热图中所有响应之和的比值最大化。数学上定义如下:
在这里插入图片描述
对热图 M t M_t Mt 应用尺度因子 σ σ σ 来扩大取值范围,因为 M t M_t Mt的元素值均为 [1,1]。然后在目标热图的真实位置 x s x_s xs 处计算 softmax 值,其中分母是热图所有元素的总和,对数运算用于加快收敛速度。我们观察到,通过惩罚真实位置处的 softmax 值,网络学会了有效地减少其他位置的响应而增加真实位置的响应。在实验部分,我们比较了用不同常见损耗设计训练的稠密描述符的特征匹配和SfM性能,这些设计最初是为关键点定位任务而设计的。不同稠密描述符生成的目标热图的定性比较,如图3所示:
在这里插入图片描述
图3:内窥镜中特征匹配性能的定性比较。图中定性地显示了三种用不同损耗设计训练的稠密描述符在两两特征匹配任务中的表现。前两行是训练图像,其余是测试图像。第一列和第二列显示源-目标图像对,其中绿色十字标记表示源-目标点的真实对应关系。对于每个稠密描述符,从 POI 卷积层生成一个目标热图,如最后三列所示。为了更好地将对比可视化,将显示的热图用 softmax 操作归一化。最后三列显示的数字是估计的目标关键点位置和真实位置之间的像素误差。第四列显示UCN[5]在内窥镜数据集上使用最难对比损失训练的结果。第五列模型的训练方法与我们的训练方法相同,只是训练损失为Softargmax[11]和BCE,而不是相对响应损失。结果表明,我们的方法产生的高响应较少,匹配精度较高。

稠密特征匹配

对于源图像中的每个源关键点位置,用上述方法生成对应的目标热图,选择热图中响应值最大的位置作为估计的目标关键点位置。使用目标关键点估计位置的描述符对源描述符图执行相同的操作,以估计源关键点位置。由于稠密匹配的特点,传统的双向最近邻准则用于局部描述符的点对特征匹配过于严格。因此,只要估计的源关键点位置在原始源关键点位置的附近,我们就接受匹配,从而放松该准则,我们称之为循环一致性准则。将所有采样的源描述符作为一个大小为 N × L × 1 × 1 N × L × 1 × 1 N×L×1×1 的核,在GPU上并行计算稠密匹配,其中 N N N 是采样源关键点的数量,同时也是输出的通道维,L是特征描述符的长度,同时也是2D卷积输入的通道维度。

3. 实验

我们在三个数据集上评估了我们提出的方法。使用鼻窦内窥镜数据集来评价局部描述符和稠密描述符在鼻窦内窥镜中成对特征匹配和SfM任务中的性能。使用KITTI Flow 2015数据集[20]来评价稠密描述符在自然场景中成对特征匹配任务中的性能。使用包含建筑照片的小型数据集[34]来评估局部描述符和稠密描述符在自然场景SfM任务中的性能。所有实验都在4个NVIDIA Tesla M60 GPU的工作站上进行,每个GPU有8GB内存,使用PyTorch实现[24]。

鼻窦内窥镜评估

该数据集包括从8名患者和2具尸体收集的视频数据,总时长约为30分钟。为了便于实验,在训练和测试过程中,所有图像都被下采样成 256 × 320 256 × 320 256×320 像素。对于我们的方法,我们使用轻量级版本的全卷积DenseNet (FC-DenseNet)[12],共有32层,滤波增长速率为10。输出描述符的长度为256,参数总数为53万。采用随机梯度下降法训练模型,循环学习率[32]在0.0001 ~ 0.001之间,相对响应损耗的尺度因子 σ σ σ 经经验确定为20。5名患者和1具尸体的数据用于训练,另一具尸体用于验证,其余3例待检测。由于我们的评估集中在损耗设计上,为了公平起见,我们对所有稠密描述符使用上述相同的网络体系架构来提取特征。所有模型都经过训练,直到验证数据的性能停止提高。两两特征匹配的评价结果如表1所示。为了衡量特征匹配的准确性,我们使用了三个阈值(5、10和20个像素)的正确关键点百分比(PCK)。如果检测到的目标关键点位置在指定的像素数内,则判定匹配是正确的。结果表明,我们提出的稠密描述符训练方案表现出了竞争力对比其他训练方案,即[5]中的对比损失(Contrast Loss)和[4]中的最难对比损失(Hard Contrast Loss)。此外,由于我们将描述符学习问题转化为关键点定位问题,我们还通过用关键点定位中使用的几种损失函数代替相对响应损失来训练所提出的网络,以此来评估它们的性能。对于所提出的方法,在当前设置下生成和匹配一对稠密描述符大约需要37ms。为了评估局部描述符和稠密描述符在内窥镜SfM任务中的性能,我们使用了一个简单的SfM管道[14],它输入成对特征匹配,使用Hierarchical MultiAffine[25]进行几何验证,使用全局BA[22]进行优化,对间隔在30帧以内的所有图像对进行特征匹配估计。对于所有的局部描述符,使用DoG[17]提取源图像和目标图像中的关键点位置,以双向最近邻(MNN)为匹配准则进行稀疏特征匹配。对于密集描述符,只使用DoG方法提取源图像中的关键点位置,然后对目标图像进行稠密匹配,以检测到源图像中的候选关键点位置,并使用稠密特征匹配一节中描述的循环一致性标准排除了错误匹配。由于内窥镜的纹理平滑性,我们改变了DoG的超参数,从而可以检测到更多的候选关键点位置。每个频的层数为 8 8 8,对比阈值为 5.0 e − 5 5.0e^{-5} 5.0e5,边缘阈值为 100.0 100.0 100.0,第一个octave使用的高斯函数标准差为1.1。所有人工设计的描述符都使用原始作者推荐的参数设置。SfM结果如表2所示。请注意,我们使用与[18]相同的方法从内镜检查中的SfM结果构建了一个图像块数据集,以微调HardNet++[21]进行公平的比较,这与作者发布的预训练模型相比确实具有更好的性能。

在这里插入图片描述
表1:内窥镜特征匹配性能的评价。这个表格显示了3名测试患者的所有9个序列中阈值为5px、10px和20px的正确关键点(PCK)的平均百分比,对间隔在20帧以内的所有图像对计算PCK。对于每一对,通过将稠密匹配结果与SfM结果中的真实值进行比较来计算PCK。每一列的特征匹配结果由第一行名称的描述符生成。从左到右依次为:分别是SIFT[17], DSP-SIFT[6], RootSIFT-PCA [3], 微调HardNet++[21],UCN-C [5], UCN- HC[4],Softarg[11],Softarg + BCE,Softmax + BCE[10],RR + Softarg 和 RR。用本文提出的RR来训练的模型达到了最佳的平均匹配精度。

在这里插入图片描述
表2:SfM在内窥镜检查中的性能评价。我们比较了3名患者9个序列的SfM结果,SfM结果是由位于第一列名称中的描述符生成的,我们比较了局部描述符和稠密描述符的SfM性能。从第一个描述符开始,分别是SIFT[17], DSP-SIFT[6], RootSIFT-PCA [3], 微调HardNet++[21],UCN-C [5], UCN- HC[4],Softarg[11],Softarg + BCE,Softmax + BCE[10],RR + Softarg 和 RR。第一行表示每个序列中的帧数。在接下来的行中,对于每个序列和每种方法,从左到右的三个数字分别是配准视图的数量、稀疏点的数量和稀疏点的平均跟踪帧数。结果表明,该方法在所有序列中获得了最多的配准视图数,并对大多数序列进行了最稠密的重构。SIFT 或 RootSIFT-PCA在所有序列中获得了最高的平均跟踪帧数。

KITTI Flow 2015[20]评估

在此评估中,我们评估了密集描述符在光流估计任务中的性能。首先,我们评估匹配得分 M a t c h i n g S c o r e = I n l i e r M a t c h e s F e a t u r e s Matching Score = {Inlier Matches \over Features} MatchingScore=FeaturesInlierMatches I n l i e r M a t c h e s Inlier Matches InlierMatches 是估计的目标关键点位置和真实位置之间距离在10像素以内的匹配数量。 F e a t u r e s Features Features 是一张图像中像素的数量。我们也评估假定匹配率 P u t a t i v e M a t c h R a t i o = P u t a t i v e M a t c h s F e a t u r e s Putative Match Ratio = {Putative Matchs \over Features} PutativeMatchRatio=FeaturesPutativeMatchs 和准确率 P r e c i s i o n = I n l i e r M a t c h e s P u t a t i v e M a t c h s Precision = {Inlier Matches \over Putative Matchs} Precision=PutativeMatchsInlierMatches[30],假定匹配是指通过了循环一致性标准。我们遵循与[5]相同的训练规则,其中为KITTI数据集中的每个图像对随机选择1000个点对,并在训练过程中固定。分别对用相对响应损失、Softargmax 损失[11]、对比损失[5]和最难对比损失[4]训练的模型进行了评估。为了评估不同损耗设计的性能,我们用相同的网络结构训练所有模型来进行特征提取。我们使用38层的FC- DenseNet,滤波增长速率为16,参数总数为168万,其他参数设置与内窥镜评估相同。在训练过程中,图像被降采样了2倍。这里引用了[5]中给出的两个性能最好方法的结果。图4显示了来自不同训练模型的稠密光流估计的例子,定量评估结果如表3所示。

在这里插入图片描述
图4:KITTI Flow 2015[20]特征匹配性能的定性比较。使用三个稠密描述符对同一源-目标图像对进行光流估计,描述符分别是我们提出的方法、UCN- HC[4]和Softargmax[11],第二列每张图像中显示的数字表示光流估计的假定匹配率、准确率和匹配得分,我们使用具有6px阈值的循环一致性准则来排除潜在的错误匹配。第一列中的图像是源、目标和真实稠密光流图,其中黑色值表示没有有效的测量。第二列显示了稠密的光流估计,其中黑色像素包括那些没有真实值或被循环一致性标准排除的像素。

在这里插入图片描述
表3:在KITTI flow 2015[20]上进行光流估计的比较。DaisyFF[39]和DM[27]利用全局优化估计一对图像之间的稠密光流图,表2介绍了后四种方法。结果表明,以6像素为阈值的循环一致性准则去除不可信匹配,该方法的精度略低于UCN-HC,而UCN-HC的假定匹配率低于我们的方法。我们的方法在最后四种方法中获得了最高的匹配得分。注意,我们假设前两个方法不丢弃任何匹配项,这就是假定匹配率显示为100的原因。

双目多视图2008[34]评估

数据集由几个小尺度序列组成,每个序列从不同的视角捕捉到相同的建筑。我们评估了所提出的方法在自然场景的SfM任务中的性能,并与人工设计的局部描述符进行了比较。我们的模型使用COLMAP[29]的作者发布的 gerrard-hall,personal-hall 和 south-building的SfM结果进行训练。我们使用32层的FC-DenseNet,滤波增长速率为16,参数总数为126万,其他参数设置与内窥镜评估相同。所有用于训练和测试的图像都被下采样到 256 × 320 256 × 320 256×320 ,所有描述符使用DoG关键点检测器,参数设置与内窥镜评价相同。评估结果见表4,大多数实验是在与内窥镜相同的SfM管道[14]上进行的。也用COLMAP对SIFT和DSP- SIFT进行了评估。

在这里插入图片描述
表4:双目多视图2008[34]上SfM性能的评估。虽然训练数据集和测试数据集之间的场景变化很大,但我们的方法与人工设计的局部描述符相比仍然具有相当的性能。然而,与内窥镜相比,在特征匹配阶段,我们确实观察到更多的假匹配。这可能意味着当场景变化较大时,稠密描述符需要更多的训练数据或有限的接受域来避免过拟合。为了验证这一假设,我们训练了另一个模型RR- SG,该模型使用1/4的接受域,并且用灰度图像作为输入,参数数量与RR相似。结果表明,RR-SG在四个序列中有三个序列的重构密度更高。这可能意味着,与RR- SG相比,RR对上下文信息的过度拟合程度更大。与[14]中的SfM管道相比,COLMAP在相机轨迹的完整性方面性能更稳定,但通常稀疏点数量更少。这一观察结果与[29]中的结果相似,在[29]中,他们将COLMAP与其他SfM管道进行了比较,这可能是由于COLMAP的更严格内点标准。

4. 讨论

稠密描述符学习中各种训练方案性能差异的直观分析

我们将我们的方法与UCN-HC之间的性能差异归因于训练数据采样策略的不同。对于UCN-HC,给定一个正点对,点对中的两个点都会在小样本中得到一个最难负点来计算负损失。还设置了一个直径阈值以避免过于接近正点的挖掘点。还设置了正边际阈值和负边际阈值,以避免惩罚距离足够近的正点对或距离足够远的负点对。但这个设置有几个潜在的问题。首先,困难样本选择策略,类似于局部描述符训练[21],可能会潜在地导致训练不稳定,这也是最初的作者在他们的Github中提到的。因为在每次迭代训练中,只有小样本中的最困难负样本为网络训练提供梯度,其他样本被忽略,梯度方向可能对这些被忽略的样本没有帮助。这可能会导致训练振荡,其中困难样本在不同的样本之间跳跃,但网络永远不会收敛到最优解。失稳结果如图3所示,许多高响应分布在热图中。其次,手动指定的直径和边缘阈值也可能导致次优解决方案。因为在选定样本直径范围内的样本不被认为是负的样本,网络永远不会试图将附近的样本从选定的样本中推开。因此,这限制了描述符的匹配精度。这在图3中也可以观察到,在真实目标位置周围的高响应簇似乎比我们提出的方法更宽。损耗设计中的边缘阈值也消除了进一步将负样本从正样本中推开并将正对拉得更近的可能性,这可能是获得这种热图的另一个原因。作为比较,在我们的方法中,对于源图像中的每个采样点,目标图像中的所有点都在一次训练迭代中被观察。只有真实目标点被认为是正点,所有其他点都被认为是负点,这避免了与选定的源点和目标图像中所有点之间的描述符距离相关的振荡。该训练方案之所以不会出现数据不平衡的问题,是因为所提出的相对响应损失(Relative Response Loss, RR)。RR的目的是使真实目标位置的响应与目标图像中所有响应的总和之间的比值尽可能高。通过这样做,网络将试图抑制除目标真实位置的响应之外的所有响应。它不假设响应热图的任何先验分布,清晰地传达了精确特征匹配的目标,我们认为这提高了网络的表现力。
我们还评估了在关键点定位任务中使用的一些常见损耗,如空间softmax + BCE和Softargmax[11]。利用空间softmax + BCE进行热图回归,使网络生成与真值相似的热图。然而,由于真值分布通常被假设为人工指定标准差的高斯分布,这限制了在高斯分布不是最优的情况下网络的表达能力。这可以在图3的第三行中观察到,其中用Softargmax + BCE训练的模型试图推断出一个真实位置的高斯分布。作为比较,我们提出的方法中的学习描述符自然地沿表面边缘产生高响应,这是大多数歧义的来源。此外,在正负样本高度不平衡的情况下,BCE也存在数据不平衡的问题,这在[16]中也可以观察到。Softargmax将关键点定位任务转换为位置回归任务,网络试图生成一个热图,使热图的质心接近真实目标位置。然而由于任何质心等于目标位置的分布都不会被进一步惩罚,Softargmax使得网络容易陷入学习描述符的次优解中,而在RR中不存在这样的训练歧义。虽然通过将Softargmax与BCE相结合可以减少这种模糊性,但如表1和表2所示,由于采用单峰分布假设,其性能仍然比RR差。

局部描述符 vs 基于学习的稠密描述符

我们观察到,在鼻窦内窥镜SfM相关实验中,基于学习的稠密描述符通常比局部描述符表现得更好,我们认为这有两个原因。首先,局部描述子通常需要一个关键点检测器(DoG[17])来检测候选关键点,然后再进行稀疏特征匹配。但在关键点检测器中缺乏重复性使得许多真正的匹配无法被发现,因为在关键点检测阶段,这些匹配要么是源位置,要么是目标位置不能被检测为候选关键点。正如在[7]中观察到的,不稳定的检测是由于探测器使用到的信息很差,这往往受到诸如视点和光照等变化的显著影响。其次,内窥镜中平滑、重复的纹理使得接受域有限的局部描述符很难找到正确的匹配,即使在真实匹配中的所有点都被关键点检测器检测到。另一方面,基于学习的稠密描述符不依赖于关键点检测器产生重复的关键点位置,具有更大的接受域。
与局部描述符相比,稠密描述符也有缺点。首先,稠密描述符需要更多的内存。这是因为,要用多个关键点位置并行化稠密匹配过程,描述符需要按照稠密特征匹配一节中描述的形式组织。这需要内存在根据热图估计目标位置之前,存储每个源关键点位置的响应目标热图。虽然稀疏匹配也可以用稠密描述符执行,但由于依赖于良好的关键点检测器,性能会下降。因此,稠密描述符在低成本嵌入式系统上的实际使用受到了限制。其次,与基于学习的局部描述符相比,基于学习的稠密描述子似乎更容易过度拟合。这是因为稠密描述符网络依赖于高级和低级图像信息来生成描述符图。由于高级别信息与基于学习的局部描述符只需要的低级别纹理信息相比可能有更多的变化,因此对于稠密描述符可能需要更多的训练数据。稠密描述符在内窥镜检查中推广效果良好的原因可能是与自然场景的变化相比,具有较少的解剖变化。

5. 结论

在这项工作中,我们提出了一种有效的自监督训练方案,并对基于学习的稠密描述符进行了新的损失设计。据我们所知,这是第一个将基于学习的稠密描述符应用于内镜多视图重建的工作。我们在内窥镜和自然场景数据集的成对特征匹配和SfM任务上评估了我们的方法,我们提出的方法在鼻窦内窥镜数据集上优于其他局部和稠密描述符,在稠密光流公共数据集上优于近期的稠密描述符。广泛的比较研究有助于获得更多的理解,包括对局部描述符和稠密描述符之间的区别,以及不同损耗设计对稠密描述符总体性能的影响。因为SfM是一种离线方法,所以它不能支持实时定位和建图。我们计划扩展这项工作,在未来将一个基于学习的稠密描述符合并到现有的SLAM系统中,使其在内镜手术导航中更加准确和鲁棒。我们还计划采用重抽样法来训练稠密描述符,因为观察到用稀疏SfM结果训练的描述符模型有助于SfM从测试和训练序列中估计更稠密的重构。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值