Det3D - 首个通用 3D 目标检测框架

点击我爱计算机视觉标星,更快获取CVML新技术


本文转载自知乎,已获作者授权转载,请勿二次转载。

(原文链接:https://zhuanlan.zhihu.com/p/101346137)

背景介绍

应用于自动驾驶、室内导航等领域的 3D 检测是近一段时间比较热门的一个研究方向。其数据格式包括 image、point cloud、RGBD、mesh 等。

作为对比,2D 检测目前是一个非常成熟的领域,各种优秀的框架(Detectron2 / mmDetection, etc)不计其数,研究人员基于某一个框架,可以快速验证想法,而不需要去关心如何适配某种数据集、如何做增强、如何给数据加速等等,大大节省了做 research 的工程成本。

很可惜,迄今为止(2020 年初),3D 目标检测目前还处于一个群魔乱舞的年代。具体表现为:

  • 3D 数据集很难有一个通用的格式或者 API 来读取,比如 KITTI 和近期新出的 nuScenes,Waymo,Lyft 等数据集格式差异很大;每种数据集的数据采集方式、坐标系定义、包含的数据类型,甚至评价指标都有很大区别。

  • 与 2D 图片不同的是,3D 数据的预处理也是一个很大的瓶颈。很多时候,光是如何做数据增强,如何加快数据预处理的速度,让自己的模型在尽可能短的时间内出结果等等工程问题就导致很多人在想要研究自己感兴趣的问题之前,就已经卡壳很久了。

  • 现有各种方法的训练速度都非常慢,一方面是大部分模型的 code 都是单卡版本,另一方面是 3D 检测依赖一些比较 heavy 的模块。

类似的问题还有很多,比如没有 pretrain 的模型、评价指标混乱,算法复现困难等等,这些都会制约该领域的发展。

为了使 3D 检测领域能够有一个像 mmDetection 等相对完备的检测框架,减少研究人员在数据和其他工程问题上耗费的经历,也为了能够让大家的方法能像 2D 检测领域一样够快速的复现、分享,我们开源了 Det3D,据我所知这是业界首个通用的 3D 目标检测框架。

Det3D (based on PyTorch)

https://github.com/poodarchu/Det3D

首先介绍一下 Det3D 支持的数据集:

  • KITTI cvlibs.net/datasets/kit

  • nuScenes nuscenes.org/

  • Lyft level5.lyft.com/dataset

  • ...

以及目前支持的模型:

  • VoxelNet

  • SECOND

  • CBGS Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection

  • Point Pillars

  • PIXOR

  • PointNet++

  • Point RCNN (即将 release)

  • ...

以及 Det3D 的一些新特性:

  • 多 GPU 训练 Distributed Data Parallel

  • 统一的数据集 API

  • 统一的 config

  • 统一的训练流程

  • 统一的数据增强 pipeline

  • 支持灵活的扩展

  • 支持 sync bn

  • state of the art 的性能(CBGS)

  • 完备的可视化功能(数据、label、feature map、多视图、3D)

  • 提供地平面检测等辅助模块

基于 Det3D,我们取得了 nuScenes 3D Detection Challenge 的第一名,以及 LYFT 3D Detection Challenge 的第三名。

更多细节以及详细的用法,请查看 Det3D 的 readme。

未来计划

目前 Det3D 仍旧存在很多不完善的地方,比如 pre-train 模块目前并没有提供。因此,写这篇文章的目的:

一是想让更多人知道 Det3D;

二是希望 Det3D 可以给各位做 3D 检测的同学一个工具,提高其工作效率。

Release Code 远远不是结束,我们希望越来越多的人能够持续反馈和 contribute,共同将 Det3D 打造成一个更加丰富、高效的 codebase,进而继续回馈社区。

致谢

在开发 Det3D 的过程中,我们参考了 maskrcnn_benchmark、mmDetection 以及 second.pytorch 的设计思路和实现,在此对其作者表示感谢。


三维视觉交流群

关注最新最前沿的三维视觉技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:3D)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值