ECCV 2024 | 迈向通用激光雷达语义分割!取代Transformer的新架构SFPNet

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

c1992049827eb667a14f7a5291f63109.png

论文标题:SFPNet: Sparse Focal Point Network for Semantic Segmentation on General LiDAR Point Clouds

论文:https://arxiv.org/abs/2407.11569

数据集:https://www.semanticindustry.top

代码:github.com/Cavendish518/SFPNet

背景

激光雷达因其在包括低光照条件在内的多种环境下的精确距离检测能力而成为自动驾驶汽车和机器人的热门选择。激光雷达点云能够精准表征真实场景,通过语义分割实现对三维场景的直接理解,相比基于二维图像的分割,这些优势能够更有效地支持后续的定位、规划等任务。 

摘要

现有激光雷达语义分割的SOTA方法通常包含专门为机械旋转激光雷达设计的归纳偏置。这限制了模型在其他类型激光雷达技术中的通用性,并使超参数调整变得更加复杂。为了解决这些问题,上海交通大学团队提出了一种通用的框架SFPNet,用稀疏焦点机制代替窗口注意力机制,以适应市场上流行的各种类型的激光雷达。SFPNet能够提取多层上下文信息,并使用门控机制动态聚合不同层次的信息。作者还提出了一种针对工业机器人应用场景的新型混合固态激光雷达语义分割数据集S.MID。SFPNet在nuScenes 和SemanticKITTI等机械旋转激光雷达数据集中展示了具有竞争力的性能,在固态激光雷达数据集PandaSet和混合固态激光雷达数据集S.MID上表现优于现有方法。

动机

a01c5e7d56e291518220ad64bbae2cc9.png

图1不同类型的激光雷达点云分布和FOV对比。

对于激光雷达分割任务的backbone网络,它需要解决的三个主要挑战是稀疏性、大规模性和点云密度的非均匀变化。先前的研究将归纳偏置(特殊分区或特殊窗口和位置编码)引入到单一类型的激光雷达(通常是机械旋转激光雷达)来解决上述三个挑战(图2)。这会限制模型对其他类型激光雷达的通用性,并使超参数调整更加复杂。在这种背景下作者提出了稀疏焦点机制来替换窗口注意机制。         

    

824f5077670b144d824cc3520f0dc600.png

图2窗口注意力机制(左上,左下),圆柱分区(右上)和稀疏焦点机制(右下)的直观对比。         

方法

稀疏焦点模块可以替换窗口注意力机制,直接插入现有的网络中。稀疏焦点模块具有如下形式:

9025bf355ba73a62faac39dab77a7d02.png

稀疏焦点模块具有两条性质1)包含上下文信息的显式局部性 2)平移不变性。

aac12fe7701e9c7149c268cb9c7bdf27.png

图3 稀疏焦点模块。   

方法具体实现如下,给定一个激光雷达特征序列X。

先进行多级上下文提取:

1a70c41f9ef42e9669284d2074d7cd68.png

0cdabfc32c48aa4a4a3d521617dedd5a.png

然后进行自适应特征聚合:

deca4c114d6a3930c9c4702fbef00d0e.png

最后实现通道信息查询:

b561362f6db5dac0ebde9736fc609fa1.png

数据集

作者使用装备了Livox Mid-360的工业机器人在电站场景采集并标注了38904 帧数据。数据集场景如下:

22d5b7974a3f9bd670d23311824f5e89.png

图4 S.MID数据集中的累计点云图。

和传统benchmark,nuScenes 和SemanticKITTI的对比:   

19e4e964cbc1781682e4601e668f70b1.png

表1 数据集对比。

实验结果

作者在不同类型的激光雷达数据集nuScenes ,SemanticKITTI, PandaSet和S.MID上进行了实验,SFPNet均取得了非常好的分割效果,表现出了很好的通用性和鲁棒性。

8c840fe60022ba45ea0b11e2dc77a67d.png

表2 和现有backbone类型的网络在不同类型激光雷达数据集上的效果对比。

8657ccefe8ca3fd6ffe102007377db77.png

表3 nuScenes验证集。

特别地,针对混合固态激光雷达点云分布的随机性,SFPNet有较好的结果,而前人的方法和标准稀疏卷积网络相比效果没有明显提升,即前人设计的模块失效。印证了方法的通用性。   

435743bdd64aded1a4bc3c9646a34f9c.png

表4 S.MID验证集。

作者还给出了可解释性的可视化验证。消融实验验证了各个模块的必要性。

f1e4bb90a0f987e5509bb4fb9bbe63cd.png

图5 可解释性分析。某一个点(红星)和周围特征(1acf306ec5d4a7a0e79ee2ec55b30328.png)的相关性。

e8b6ff27119970a30d3132b835c435e4.png

表5 消融实验。         

总结

作者提出了一种新的通用的激光语义分割网络SFPNet。该方法可以替换现有主流网络中的窗口注意机制。SFPNet在各种类型激光雷达的数据集上表现出出色的性能,并具有良好的可解释性。作者还构建了一个全新的基于混合固态激光雷达的数据集S.MID。

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值