CLOCs：3D目标检测多模态融合之Late-Fusion

最新推荐文章于 2024-09-02 13:43:52 发布

Tom Hardy

最新推荐文章于 2024-09-02 13:43:52 发布

阅读量490

点赞数

文章标签：计算机视觉机器学习人工智能深度学习编程语言

本文链接：https://blog.csdn.net/qq_29462849/article/details/118160752

版权

本文探讨了3D目标检测中多模态融合方法，特别是Late Fusion策略。作者分析了Early-Fusion、Deep Fusion和Late Fusion的优缺点，并详细介绍了CLOCs（Camera-LiDAR Object Candidates Fusion）方法，它利用2D和3D检测器的几何和语义一致性，通过低复杂度的融合提升检测性能。实验结果显示，CLOCs在KITTI数据集上表现出色，且具备模块化和通用性，能与其他预先训练的检测器结合使用。

摘要由CSDN通过智能技术生成

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

文章：CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection
论文地址：在公众号「计算机视觉工坊」，后台回复「Late-Fusion」，即可直接下载。

0 前言

目前很多3D目标检测的工作都朝着多模态融合的方向发展，即是不仅仅使用单张图像或者仅仅使用点云做3D目标检测任务，而是在融合这两种传感器信息上作出一定的探索，今天笔者想要分享的一篇研究工作即是在这方面比较新的文章。论文
笔者给出该文章目前在KITTI object 3d的实验效果如下.（本文介绍的这篇文章于20.9.1放置在arxiv上，并不是下图对应的IROS的文章，但是是同一个作者）

KITTI检测结果可视化如下。

1 背景知识

1.1 三种多模态融合的方法

不仅仅是指点云和图像的两种模态的信息融合方法，一般的来讲针对多模态信息的融合一般有如下的几种方式。

Early-Fusion

Early-Fusion 即是在对原始传感器数据做特征提取之前做特征融合。在3D目标检测中有文章pointpainting(CVPR 20)，PIRCNN(AAAI20)等文章采用这种方式，就pointpainting而言，首先是对image图像做语义分割，然后将分割后的特征通过点到图像像素的矩阵映射到点云上。再经过深度学习网络对Bbox回归。就理论上讲，该种融合方法是多模态融合的可能最好的方法，因为此时对应的特征在现实中存在一定的索引关系和更少的特征抽象。

Deep Fusion

如下图所示的融合方法，该融合需要在特征层中做一定的交互。目前就3D目标检测多模态的研究中，存在的文章有今年ECCV的EPNet，3的CVF等文章，就EPnet而言，主要的融合方式是对lidar 和image分支都各自采用特征提取器，对图像分支和lidar分支的网络在前馈的层次中逐语义级别融合，做到multi-scale信息的语义融合。这是这里提到的三种融合方法中比较难，也是最可能创造出新的融合方法的融合方式。

最低0.47元/天解锁文章

Tom Hardy

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CLOCs：3D目标检测多模态融合之Late-Fusion

点击上方“计算机视觉工坊”，选择“星标”干货第一时间送达文章：CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Dete...
复制链接

扫一扫