新的创作超容易出(水)成果的方向:点云为交叉领域提供新方案!

点云是计算机视觉和机器学习领域的一个重要研究方向,它涉及从三维空间中的散点数据中提取、分析和理解信息。这个领域的关键任务包括点云匹配、分割、分类和三维重建等。点云技术在自动驾驶、机器人导航、增强现实和三维建模等多个应用领域具有重要意义。随着技术的发展,点云处理不仅提高了自动化和智能化水平,还为复杂环境的感知和交互提供了新的解决方案。

为了帮助大家全面掌握最新的点云的方法并寻找创新点,本文总结了最近两年点云相关的16篇顶会论文研究成果,这些论文、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。

三篇论文详细解析

1、Visual Point Cloud Forecasting enables Scalable Autonomous Driving

方法
  • ViDAR框架:提出了一个名为ViDAR的视觉自动驾驶预训练模型,该模型基于从历史视觉输入预测未来点云的新预训练任务,称为视觉点云预测。

  • 历史编码器(History Encoder):使用编码器提取历史嵌入,这些表示随后被转换到3D几何空间。

  • 潜在渲染操作(Latent Rendering operator):新提出的操作符,用于在潜在空间模拟体积渲染操作,从而从历史嵌入中获得几何嵌入。

  • 未来解码器(Future Decoder):一个自回归变换器,用于迭代预测任意时间戳的未来点云。

  • 预测头(Prediction Head):将预测的未来BEV特征投影到3D占用体积。

  • 自监督学习:ViDAR使用Image-LiDAR序列进行自监督预训练,不依赖于精确的3D标注。

  • 多组潜在渲染(Multi-group Latent Rendering):通过在不同通道上并行运行多个潜在渲染,增强了几何特征的多样性。

创新点
  • 视觉点云预测:提出了一种新的自监督预训练任务,通过历史视觉图像预测未来点云,同时学习语义、3D结构和时间动态。

  • 潜在渲染操作:解决了在潜在空间中直接使用可微分光线投射导致的特征建模能力不足的问题,通过特征期望函数和条件概率函数来增强特征的几何信息。

  • 多组潜在渲染设计:通过在不同通道上并行化多个潜在渲染,允许射线特征保持多样化信息,从而提高下游性能。

  • 未来解码器的自回归设计:允许模型基于先前的BEV特征和预期的自我运动来预测未来的BEV特征,从而实现对任意未来时间点的特定预测。

  • 跨模态学习:ViDAR利用视觉输入进行预训练,但能够超越使用点云的先前预测方法,显示出跨模态学习的能力。

  • 端到端的自动驾驶应用:ViDAR在感知、预测和规划等多个下游任务中表现出显著的性能提升,证明了其在端到端自动驾驶系统中的实用性和有效性。

  • 减少对精确标注的依赖:通过自监督学习,ViDAR减少了对精确3D标注的依赖,有助于扩展到更大规模的生产应用中。

IMG_256

IMG_256

2、SCPNet: Semantic Scene Completion on Point Cloud

方法
  • 重设计完成子网络:提出了一个新的完成子网络,包含多个多路径块(Multi-Path Blocks, MPBs),用于聚合多尺度特征,并且避免了损失信息的下采样操作。

  • 多帧模型中的知识蒸馏:设计了一种新颖的知识蒸馏目标,称为密集到稀疏的知识蒸馏(Dense-to-Sparse Knowledge Distillation, DSKD),将多帧教师模型中的密集、基于关系的语义知识转移到单帧学生模型,显著提升了单帧模型的表征学习。

  • 完成标签校正:提出了一种简单而有效的标签校正策略,使用现成的全景分割标签来移除完成标签中动态物体的痕迹,极大提升了深度模型特别是对动态物体的性能。

  • 网络架构:SCPNet包含两个子网络,即完成子网络和分割子网络。点云首先通过一系列多层感知器(MLP)来提取点特征,然后体素化并输入到完成子网络以产生更密集的体素特征,再进一步输入到分割子网络生成最终的体素输出。

  • 目标函数:整体损失函数由交叉熵损失、lovasz-softmax损失和提出的蒸馏损失三部分组成。

创新点
  • 多路径块(MPB):设计了包含不同核大小的卷积块的多路径块,用于在完成子网络中聚合多尺度特征,提高了对不同尺寸物体的完成质量。

  • 密集到稀疏的知识蒸馏(DSKD):首次将知识蒸馏应用于语义场景完成任务,通过成对相似性信息的蒸馏,使学生模型从教师模型中受益于关系知识。

  • 完成标签校正策略:利用全景分割标签来清除动态物体在完成标签中的长轨迹,提高了标签的准确性和可靠性,从而改善了模型对动态物体的完成性能。

  • 完成子网络的全面改革:摒弃了下采样操作,采用完成优先的原则,使完成模块直接处理原始体素特征,避免了小物体和拥挤场景的严重误分类问题。

  • 分割子网络的修改:对Cylinder3D网络进行了修改,用常规的立方体划分替代了圆柱划分,移除了原始点细化模块以节省GPU内存。

  • 在SemanticKITTI和SemanticPOSS基准测试中的领先地位:SCPNet在SemanticKITTI语义场景完成挑战中排名第一,超越了之前的最佳方法S3CNet,同时在SemanticPOSS数据集上也展示了优越的性能。此外,SCPNet在SemanticKITTI语义分割任务上也取得了竞争性结果,表明在场景完成中学习到的知识对分割任务也是有益的。

IMG_257

IMG_257

3、Rotation-Invariant Transformer for Point Cloud Matching

方法
  • RoITr架构:提出了一种名为RoITr(Rotation-Invariant Transformer)的模型,用于处理点云匹配任务中的任意姿态变化。

  • 局部注意力机制:引入了基于点对特征(Point Pair Feature, PPF)的局部注意力机制,用于描述与姿态无关的几何结构。

  • 编码器-解码器架构:构建了一个新颖的基于注意力的编码器-解码器架构,用于学习高度区分性和旋转不变的几何编码。

  • 全局变换器:提出了一个全局变换器,通过自注意力机制学习旋转不变的跨帧空间意识,显著提高了特征的区分性,并使模型对低重叠更加鲁棒。

  • 点匹配和损失函数:采用了粗到细的匹配策略,并定义了损失函数,包含超点匹配损失和点匹配损失。

创新点
  • PPF Attention Mechanism (PAM):提出了一种新的注意力机制,利用PPF作为局部坐标来编码旋转不变的几何特征。

  • Attentional Abstraction Layer (AAL):设计了一种注意力抽象层,用于通过最远点采样(Farthest Point Sampling, FPS)获取锚点,并结合PAM生成锚特征。

  • PPF Transformer (PPFTrans):构建了一个编码器-解码器架构,用于从局部几何中学习高度区分性的旋转不变特征。

  • 全局上下文聚合:通过全局变换器引入了旋转不变的跨帧位置意识,增强了特征的区分性,特别是在处理低重叠情况时。

  • 对任意旋转的鲁棒性:在刚性和非刚性公共基准测试中,RoITr在低重叠场景下的性能显著优于现有最先进模型,特别是在面对罕见旋转时的稳定性。

IMG_258

IMG_258

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值