3D Instances as 1D Kernels⋆ 论文阅读-CSDN博客

本文链接：https://blog.csdn.net/canmengw/article/details/129893332

文章提出了一种新的点云实例分割方法，通过实例内核来编码对象的语义、位置和形状信息。首先，使用U-net结构预测点特征和质心偏移，然后通过局部归一化的非最大抑制去除重复候选。接着，通过迭代聚合机制形成实例内核，并使用动态卷积网络生成实例掩码。该方法还包括一种候选合并策略，以防止重复的实例预测，并使用二进制交叉熵和Dice损失进行监督学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

通过引入一个实例内核，由一维向量表示，来对实例对象的语义，位置以及形状信息进行编码
首先在潜在的实例质心定位候选，之后设计一种候选合并方案来聚合重复候选并通过收集候选周围的上下文形成实例内核，
一旦实例内核可用就可以通过动态卷积重建，其权重是以实例内核为条件动态调整。
如何防止重复候选：通过局部归一化的非最大抑制算子提取质心，观察到重复啧被预测用于单个实例，设计一种迭代聚合机制在预测和合并分数图的指导下合并重复候选点。
主要贡献，创新：
- 1，将动态卷积思想扩展到实例内核中
- 2，提出一种动态内核网络
1，使用类似u-net结构处理原始点云并预测点特征，质心偏移以及语义掩码
2，使用候选挖掘分支来定位质心
3，合并重复的候选点形成实例内核，一旦获得内核可以通过几个卷积层的点云特征来获得实例掩码。
Point-wise Feature Extraction
- 采用类似u-net结构骨干输出，之后来预测语义掩码以及质心偏移分支。
Finding Instances
- 点特征以及质心偏移会被拼接以形成质心挖掘分支的输入，然后输出具有softmax的mlp以获得尖锐的质心图
- 训练过程中每个实例质心放置一个高斯核，来生成伪地面实况图di代表点到实例质心距离，ri控制高斯核方差，α为25
- 候选挖掘分支的损失函数定义为：
- 其中Pi为指示函数，属于实例为1，否则为0.
- 使用预测的热图 H，我们使用定制的局部归一化 NMS (LN-NMS) 策略迭代地搜索局部最大值作为实例候选。在每次迭代中，该算法定位前景点中质心得分最高的点；然后通过该 R 半径邻居中最大值的划分对半径为 R 的邻居中其他点的质心分数进行归一化。如果归一化质心分数大于阈值 Tθ ，则该点将被视为候选点，其 R 半径邻居中的所有其他点被抑制并排除在下一次迭代中。其中阈值设置为0.5，候选点经验设置为200.
Representing Instances as Kernels
- 为每一个获取的实例提取一个内核
Aggregating Duplicate Candidates
根据每个候选的上下文来判断是否应该聚合两个候选。对于每个原始候选者，我们使用来自其“前景点”、“背景点”的特征来描述上下文。“前景点”表示每个候选R半径邻居内具有相同语义标签的点，而“背景点”表示每个候选2R半径邻居内具有不同语义标签的所有点。由于上述两个特征只编码语义和形状信息，我们将它们与每个候选者的移位坐标（将原始坐标与质心偏移向量相加）连接起来作为位置信息，形成聚合特征 Fa ∈ RN ′×(2D′ +3) 用于重复候选聚合。
之后对于每一个候选者减去聚合特征，每个实例重复此过程得到反映相似程度的候选差异矩阵。
通过贪心算法迭代合并候选点，每次迭代获取得分除对角线最大值其中相同索引的候选点合并，并把它们合并分数更新为0，直到所有合并分数都小于0.5阈值迭代结束。
在训练过程中采用二进制交叉熵损失控制合并：
候选之后通过合并特征，实例核被转换为几个卷积层的权重。
Generating Masks with Instance Kernels
使用实例核对位置，语义和形状进行编码，同时将实例感知的位置信息添加到点云特征中，生成解码特征，通过动态卷积输出实例掩码，采用匈牙利算法对预测的实例掩码与真实实例进行匹配，采用BCEloss和dice loss进行监督。
总loss
其中Lsem是语义分割损失，Loff是质心偏移损失。
在scannetv2测试集上的结果
以及scannetv2验证集下的结果