NERF-SUPERVISED FEATURE POINT DETECTION AND DESCRIPTION

引用格式】:Youssef A, Vasconcelos F. NeRF-Supervised Feature Point Detection and Description[J]. arXiv preprint arXiv:2403.08156, 2024.

论文网址https://arxiv.org/pdf/2403.08156.pdf

 

目录

1、瓶颈问题

2、本文贡献

3、解决方案

3.1 NeRF构造的数据集

3.2 NeRF点重投影

3.3 SiLK-PrP

3.4 SuperPoint-PrP

3.4.1 投影适应(Projective Adaptation)

3.4.2 描述符损失(Descriptor Loss)

4、实验结果

4.1 单应性估计

4.2 相对位姿估计

4.3 成对点云配准


1、瓶颈问题

    目前提出的基于学习的特征点检测和描述方法,大多数都可以在任何单视图数据集上自我监督的方式进行微调。这是对训练数据应用不同的单应性扭曲来实现的,用已知的点对点映射模拟同一场景的不同视点。虽然这个训练方案简单而且灵活,但是生成的单应性扭曲是多视图视角的粗略简化,会导致模型的通用性有限(限制了模型的泛化能力)

2、本文贡献

1、创建了一个新的多视图数据集,由10个不同的室内和室外场景的图像组成,共有10000个NeRF合成视图,其包含相应的深度图、内部和外部参数

2、提出了两种通用方法(端到端和投影适应),使用基于 NeRF 重投影误差的损失函数来训练最先进的特征点检测和描述方法。

3、使用NeRF合成数据重新训练SuperPoint和SiLK的改编版本,并将它们与在更大的MS-COCO数据集上训练的原始基线进行比较。在ScanNet和YFCC100M数据集上的性能优于原始基线,在成对点云配准方面具有相似的性能,而在HPatches单应性估计基准上仅表现略差。

3、解决方案

3.1 NeRF构造的数据集

    使用4K分辨率的IPhone 10拍摄了四个室内场景和一个室外场景,用4K分辨率的三星A52拍摄一个室内和一个室外场景;另外使用Blender软件生成室内场景【来自Benedikt Bitterli.Rendering resources,2016.https://benedikt-bitterli.me/resources/】和一个室外场景【来自Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields】。由于本文关注的是场景多样性和最小数据集大小之间的权衡,故没有选择使用现有公开可用的数据集构建不同的数据集。

    接下来使用COLMAP【Structure-from-Motion Revisited】软件来获取所有图像的相机位姿,并使用它们生成合成视图。然后对与每一个场景训练了一个NeRFacto模型【具体没说,说是NeRFStudio框架的一部分】,对图像实现重建

    构造的新数据集大小是MS-COCO数据集的1/30倍,是ScanNet数据集的1/250倍。

3.2 NeRF点重投影

    给定两个由NeRF合成的视图 I 和 I′,它们具有已知的内参 K 和 K′ 以及外参 R, R′, t, t′。对于图像 I 中的任意特征点 p(以齐次像素坐标表示),我们可以通过NeRF重建得到其深度 d,并且可以将该点表示为3D世界坐标 P:

  • pc是特征点 p 在相机坐标系下的非齐次坐标
  • K 是相机的内参矩阵
  • R 和 t 是相机的旋转和平移向量
  • [R∣t] 是一个包含旋转矩阵 R 和平移向量 t 的增广矩阵。

    接下来,点 P 可以被重新投影到视图 I′ 中:

  • K′ 是视图 I′ 的内参矩阵
  • R′ 和 t′ 是对应的外参
  • P′ 是特征点 P 在视图 I′ 的相机坐标系下的非齐次坐标
  • P'z 是透视除数,用于将3D点P 转换为2D像素坐标。

3.3 SiLK-PrP

    SiLK-PrP是基于SiLK模型的一个变种,它通过NeRF数据集进行训练来适应PrP过程

    SiLK-PrP沿用了SiLK模型的基本架构,但是在训练过程中使用了NeRF合成的图像和相应的重投影误差。其简单的用NeRF渲染和点重投影取代单应性扭曲,保持训练管道和损失函数的其余部分不变。随机抽取来自同一场景的图像对I,I',然后在训练过程中,使用上面两个公式生成密集的ground-truth点对应关系【用于生成伪标签(自监督)】。

    SiLK-PrP以端到端的方式在NeRF数据集上进行训练,总共进行了100000迭代。

3.4 SuperPoint-PrP

    SuperPoint-PrP是基于SuperPoint模型的一个变种,它通过NeRF数据集进行训练来适应PrP过程

    SuperPoint-PrP使用了与原始SuperPoint模型相同的架构,修改了同形自适应过程以及描述符损失来处理NeRF训练数据和点重投影过程。

3.4.1 投影适应(Projective Adaptation)

    利用了这样一个事实,即每个场景的训练序列是沿着连续轨迹生成的

    首先从20个连续渲染的NeRF图像中随机采样。取初始图像Ii和其余15个随机图像Ir作为Ii的扭曲版本

    然后计算图像Ii的概率热图Hi。对于每个随机选择的图像Ir,计算其概率热图Hr,并从每个热图中提取特征点pr,同时使用非最大抑制过滤彼此太接近的特征点。一旦获得特征点pr,应用PrP过程将兴趣点与初始图像Ii对齐,对应点记为p'i

    在得到投影特征点p'i后,为其生成一个表示为B'i的掩码,从概率热图Hr中提取投影前以特征点为中心的3×3补丁,然后将补丁应用于二进制热图B'i中【掩码B'i用作投影到输入渲染图像Ii上的渲染图像Ir的概率热图】

    最后将每一帧输入的渲染图像概率热图Hi和掩码B'i聚合在一起,对最终的聚合热图应用非极大抑制,得到输入渲染图像Ii的伪ground-truth特征点。

3.4.2 描述符损失(Descriptor Loss)

    SuperPoint的损失函数由兴趣点损失和描述符损失组成。在SuperPoint-PrP中,兴趣点损失使用SuperPoint原始的损失,对于描述符损失做以下更改:

    对于这个整体的表示并没有变,本文中修改了上述公式中shwh'w'的计算方法。

原始方法:

  • Hphw:通过单应性变换。

本文方法:

  • C(M;phw):NeRF点重投影
  • M:点重投影中使用到的参数的集合

4、实验结果

4.1 单应性估计

Rep:匹配点的重复性

Hom. Est. Acc.:表示在给定误差阈值内正确估计单应性的图像对的比例

Hom. Est. AUC:是通过操作特征曲线(ROC curve)计算得出的曲线下面积

MMA:表示平均匹配精度,即在重投影误差小于某个阈值的情况下,匹配成功的点对数与检测到的总点数之比

MS:表示匹配分数,即正确匹配的点对数与两个图像中检测到的点对总数之比

SiLK-PrP-Aug :引入了旋转和尺度不变性

SP-PrP-Hyb:混合了其他训练策略

在不同视角和光照分別进行实验

4.2 相对位姿估计

PrP 模型在所有角度位姿误差阈值上始终超过它们各自的基础模型

    相对位姿估计将平移误差计算为地面实况估计平移向量之间的角度平移误差,但是计算出的角平移误差存在不稳定性。当地面实况相对平移向量 (||tGT ||) 的范数约为 0.2 和以下时,角平移误差是不稳定的,如下图:

为此,做了以下实验:

对于||tGT ||低于0.15的阈值ε集的场景,只报告基于角旋转误差的姿态误差AUC

对于||tGT ||超过0.15的场景,将位姿误差AUC报告为角旋转误差与角平移误差之间的最大值

与表3相比,发现在||tGT ||超过0.15的场景中,PrP 模型可以观察到进一步的改进

PrP模型在室外场景的相对位姿估计方面超过了其对应的基线模型

4.3 成对点云配准

SuperPoint-PrP 和 SuperPoint-PrP-Hyb 在所有指标上都大大优于基线 SuperPoint 模型,除了在 5 cm 阈值下的平移误差。此外,SilK 通常比 SiLK-PrP 和 SiLK-PrP-Aug 保持 1-3% 的优势。

Rot.: 旋转误差指标,用于衡量模型估计的相对旋转与真实旋转之间的差异。

Transl.: 平移误差指标,用于衡量模型估计的相对平移与真实平移之间的差异。

Chamfer : Chamfer距离是一种用于评估两个点集之间相似度的指标。在点云配准的上下文中,它通常用来衡量预测点云和真实点云之间的距离。Chamfer距离包括两个方向的距离:从预测点云到真实点云的距离,以及从真实点云到预测点云的距离。这两个距离的平均值被用作最终的Chamfer距离指标。

准确度、平均值和中值误差

  • 14
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值