点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【语义分割】技术交流群
后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料!
论文思路:
多模态融合可以使语义分割更加鲁棒。然而,融合任意(arbitrary)数量的模态仍然有待探索。为了深入研究这个问题,本文创建了DELIVER 任意模态(arbitrary-modal)分割基准,包括深度、LiDAR、多视图、事件和RGB。除此之外,此数据集还提供了四种恶劣天气条件和五种传感器故障情况,以利用模态互补性并解决部分故障。为了使这成为可能,本文提出了任意交叉模态(arbitrary cross-modal)分割模型CMNEXT。它包含了一个Self-Query Hub (SQ-Hub),旨在从任何模态中提取有效信息,以便随后与RGB表示进行融合,并且每个额外模态只增加了微不足道的参数(~ 0.01M)。为了从辅助模态中高效、灵活地获取判别线索(harvest discriminative cues),本文引入了简单的Parallel Pooling Mixer(PPX)。通过在总共六个基准上的广泛实验,本文的CMNEXT在DELIVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF和MCubeS数据集上实现了最先进的性能,允许从1扩展到81个模态。在新收集的DELIVER上,四模态CMNEXT在mIoU中达到66.30%,与单模态基线相比有+9.10%的增益.
主要贡献:
本文为任意模态语义分割(Arbitrary-Modal Semantic Segmentation)(AMSS)创建了新的基准DELIVER,包含四种模态,四种恶劣天气条件,五种传感器故障模式。
本文回顾和比较了不同的多模态融合范式,并提出了采用非对称架构的Hub2Fuse范式来实现AMSS。
提出的了通用的任意跨模态融合模型(arbitrary cross-modal fusion model)CMNeXt,该模型具有用于选择信息特征的Self-Query Hub(SQ-Hub)和用于获取判别线索的Parallel Pooling Mixer(PPX)。
本文通过融合多达80个模态来研究AMSS,并注意到CMNeXt在6个数据集上实现了最先进的性能。
网络设计:
![b619643f4a5ed423a8c86ba0e81076ee.png](https://img-blog.csdnimg.cn/img_convert/b619643f4a5ed423a8c86ba0e81076ee.png)
图4。Hub2Fuse范例和非对称分支中的CMNeXt架构,例如在RGB分支中有Multi-Head Self-AttentionMHSA)[80]块,在相应分支中有本文的Parallel Pooling Mixer(PPX)块。在hub阶段中,Self-Query Hub从补充模态中选择信息特征。在fusion阶段,使用特征校正模块(feature correction module, FRM)和特征融合模块(feature fusion module, FFM)[49]进行特征融合。在各阶段之间,通过添加融合特征恢复各模态的特征。四阶段融合的特征被提交到分割头进行最终的预测。
实验结果:
![6d3062ad2ac18d910d3fb19253df9ab5.png](https://img-blog.csdnimg.cn/img_convert/6d3062ad2ac18d910d3fb19253df9ab5.png)
![f17c2595b4d9e2bb71c136fcb13dd744.png](https://img-blog.csdnimg.cn/img_convert/f17c2595b4d9e2bb71c136fcb13dd744.png)
![30c403c633c5921503e99f6a6941485e.png](https://img-blog.csdnimg.cn/img_convert/30c403c633c5921503e99f6a6941485e.png)
![e72b5690f7e1a782f977566d448cebc9.png](https://img-blog.csdnimg.cn/img_convert/e72b5690f7e1a782f977566d448cebc9.png)
![e629c6a4bff5b516e7038903b697ce8a.png](https://img-blog.csdnimg.cn/img_convert/e629c6a4bff5b516e7038903b697ce8a.png)
![842ad8497a73e495aaaf06b891d9f76a.png](https://img-blog.csdnimg.cn/img_convert/842ad8497a73e495aaaf06b891d9f76a.png)
![3b6f1fd4e24d34f8ac008fea43b39a22.png](https://img-blog.csdnimg.cn/img_convert/3b6f1fd4e24d34f8ac008fea43b39a22.png)
![50705c1bea6d179c2916b92d03681f7f.png](https://img-blog.csdnimg.cn/img_convert/50705c1bea6d179c2916b92d03681f7f.png)
![8cebdab3884cd65bb9de401e2b5deeda.png](https://img-blog.csdnimg.cn/img_convert/8cebdab3884cd65bb9de401e2b5deeda.png)
![74462b4fde2772c3a1adbca135d485d2.png](https://img-blog.csdnimg.cn/img_convert/74462b4fde2772c3a1adbca135d485d2.png)
视频课程来了!
自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知等多个方向学习视频,欢迎大家自取(扫码进入学习)
(扫码学习最新视频)
国内首个自动驾驶学习社区
近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
【自动驾驶之心】全栈技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;
添加汽车人助理微信邀请入群
备注:学校/公司+方向+昵称