5.11-5.17周报

论文标题:SVDFormer: Complementing Point Cloud via Self-view Augmentation and Self-structure Dual-generator

机构单位:南京航空航天大学、香港城市大学、香港理工大学等

Github地址:https://github.com/czvvd/SVDFormer

论文的核心思想是提出了一个名为SVDFormer的新型神经网络,用于解决点云补全中的两个特定挑战:从不完整的点云中理解忠实的全局形状,并生成高精度的局部结构。

引言

        当前点云补全中存在两个具体挑战:第一个挑战是可能不存在关键的语义部分,导致基于点的网络需要巨大解空间来识别合理的全局形状并定位缺失区域。一些替代方法试图通过合并额外的彩色图像来解决这个问题,但对应的彩色图像很难获得。第二个是如何推断详细的结构。最近的一些方法利用多个细化步骤之间的跳跃式连接,使它们能够更好地利用学习到的形状模式先验来迭代恢复更精细的细节。其他一些方法通过无池编码或结构关系增强优先保留原始细节信息。

        本论文提出了一种新的点云补全神经网络SVDFormer。类似于人类如何从不同的视点观察物理对象的缺失区域来感知和定位其缺失区域,目标是通过增加数据表示来驱动神经网络吸收这些知识。很好地描述了从多个视点捕获的点云数据和深度图的全局形状(见图1 (a))。关于第二个挑战,解开以每个点的结构类型为条件的细化策略,以揭示详细的几何结构。设计了一个具有一对并行细化单元的自结构双生成器 (SDG),分别称为结构分析和相似性对齐。

贡献

        该论文有以下几点贡献:1.设计了一个称为 SVDFormer 的新型网络,它在全局形状理解和细节恢复方面显着提高了点云补全。2.提出了一种新颖的自视图融合网络(SVFNet),该网络配备了特征融合模块来增强多视图和跨模态特征,可以输出合理的全局形状。3.引入了一个自结构双生成器 (SDG) 来细化粗略完成。它使SVDFormer能够通过联合学习 3D 形状的局部模式先验和自相似性来处理各种不完整的形状。

方法介绍

        SVDFormer 的输入由三部分组成:部分和低分辨率点云Pin、NV相机位置(我们实验中的三个正交视图),NV 深度图D。目标是以从粗到细的方式估计一个完整的点云P。整体架构如图所示,由两部分组成:SVFNet 和配备两个 SDG 模块的细化器。SVFNet首先利用多个自投影深度图生成全局完成的形状P0。随后,两个SDG逐步细化和上采样P0,得到最终的点云P2,其几何结构具有高水平的细节。

SVFNet

        

  1. 目的:从多个视点观察部分输入的形状,并学习一个有效的描述符来生成全局一致且完整的形状。
  2. 过程:使用基于点的3D骨干网络(如PointNet++)从输入点云Pin提取全局特征Fp,同时使用基于CNN的2D骨干网络(如ResNet-18)从NV个深度图中提取视图特征FV
  3. 特征融合:如图所示,FV 首先通过线性投影和全局形状特征 FP 的指导转换为查询、键和值标记。然后,增强视图特征的可辨别性,注意力权重是根据以投影视点VP为条件的查询和键标记计算的。具体来说,通过线性变换将VP映射到潜在空间,然后将它们用作位置信号进行特征融合。在元素乘积之后,F'V中的每个特征在FP的指导下结合了来自其他视图的关系信息。最后,通过最大池化从 F'V 导出输出形状描述符 Fg。随后通过解码器生成全局形状Pc

SDG

        SDG 旨在生成一组坐标偏移量,根据缺失表面积的结构类型对粗形状进行微调和上采样。SDG 被设计为双路径架构,如图所示,它由两个并行单元组成,分别称为结构分析和相似性对齐。总体而言,输入Pin和最后一步输出的粗点云Pl−1,得到组合点特征Fl。Fl 包含两种形状信息来源:一种源自学习的形状先验,另一种是从 Pin 中找到的类似几何模式中学习的。然后将 Fl 投影到高维空间并重塑以产生一组上采样偏移量 Ol。将预测的偏移量进一步添加到 Pl-1 以获得新的完成结果。

        结构分析:通过显式编码局部不完整性,使网络能够匹配训练数据中学习的几何模式,以推断底层形状。具体来说,Pl−1 首先与形状描述符 Fg 连接,然后通过线性层嵌入到一组逐点特征Fl−1中。接下来,Fl−1被馈送到不完整性感知自注意力层以获得一组特征FQ,它对逐点不完整信息进行编码。qi 由下式计算: 

        其中 WQ、WK 和 WV 是大小为 C × C 的可学习矩阵。hi是一个向量,表示Pl−1中每个点x的不完备性程度。通过以下公式计算不完整性:

        相似性对齐:利用输入点云Pin中潜在的相似局部模式,通过交叉注意力层解决点云无序性导致的特特征匹配问题。

        相似对齐单元利用Pl−1中每个点的Pin中潜在的相似局部样式,解决了点云无序性质引起的特征不匹配问题。首先使用三个EdgeConv层来提取一组下采样的逐点特征Fin。Fin中的每个向量都捕获本地上下文信息。由于可能存在远程相似结构,然后通过交叉注意进行特征交换。

        交叉注意层输出逐点特征FH,它在Pin中集成了粗形状Pl−1中的每个点的类似局部结构。通过这种方式,该单元可以促进对输入中具有相似结构的点的细化。FH还被解码为一个新的特征F'H。这两个解码器具有相同的架构,该架构由两层自注意力实现。

部分结果展示

        图提供了不同方法的结果的可视化比较。在汽车和平面模型的情况下,SVDFormer 通过为详细的结构(例如平面翅膀和汽车剧透)产生更清晰、更完整的边缘来优于其他方法。这是因为 SDG 的生成能力。在椅子和沙发模型的情况下,SVDFormer可以准确地定位缺失的区域,并在模型中的孔洞之间生成点,从而得到更真实的结果。

    定量结果表明,SVDFormer 在所有指标上都取得了几乎最好的性能。特别是在密度感知倒角距离中优于 SeedFormer 8.06%。

        ShapeNet-55的测试集可以分为三个难度级别:简单(S)、中等(M)和硬(H),它们对应于不同数量的缺失点。在表中由三个难度级别的CD值和两个附加指标的平均值组成。SVDFormer在所有难度设置中都达到了 CD 的最佳结果。特别是SVDFormer 优于最先进的方法 SeedFormer,对于high难度级别,倒角距离提高了 12.8%。

        对真实世界的扫描,评估了在PCN上预训练的模型。将最小匹配距离 (MMD) 定义为定量评估指标,以评估输出与真实扫描的典型汽车/椅子的相似性。同时在图中展示了视觉比较。SVDFormer可以产生更清晰的形状,具有精细的结构和尖锐的边缘。所以即使输入非常稀疏并且与训练数据具有不同的分布,该方法也可以生成更详细的结果。

总结与展望

        本文提出了用于点云补全的SVDFormer。首先确定完成的主要挑战并为它们中的每一个开发新的解决方案。SVDFormer利用自投影多视图分析来理解整体形状并有效地感知缺失区域。此外,引入了一个称为自结构双生成器的解码器,它将形状细化过程分解为两个子目标,从而产生解开但改进的生成能力。在各种形状类型上的实验表明,SVDFormer在点云补全方面达到了最先进的性能。在面对缺乏训练数据中不常见的不规则结构时,该网络不能起到一个很好的补全效果。使用大规模 2/3D 数据集进行预训练可能是解决这一限制的一种有前途的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值