AAAI2021论文：一个高性能3-D目标两步检测法Voxel R-CNN

最新推荐文章于 2023-10-27 16:30:13 发布

3Ｄ视觉工坊

最新推荐文章于 2023-10-27 16:30:13 发布

阅读量968

点赞数

文章标签：算法人工智能机器学习编程语言计算机视觉

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/3453649291

编辑丨3D视觉工坊

AAAI2021录取论文 “Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection“，作者来自中科大和香港中文大学。

本文提出一个有趣的问题：一般大家看到point-based特征计算量大，voxel-based结构更适合特征提取，但精度下降；而作者认为，点云数据的精确定位并不需要，而粗voxel粒度也能产生充分检测精度。设计的模型Voxel R-CNN，是一个两步法，仍然达到和当前point-based方法可比的检测性能，但计算量只是其一部分。Voxel R-CNN包括3D主干网络，2D BEV RPN和检测头，其中提出的voxel ROI pooling负责从voxel特征中提取ROI特征。

在文章首页中看到的图示，给出属于两步法的当前point-based方法和该文方法的比较。

作者分析SECOND和PV-RCNN的区别，前者是单步voxel-based方法，3D主干网络加2D BEV RPN；后者是进一步改进，加入一个keypoint分支，保持3D结构信息，其VSA（voxel set abstraction）集成多尺度3D voxels特征。然后由此做RoI pooling得到Region proposals。

这样作者在SECOND的2D主干网中探索rotated ROI align提取ROI特征。由此得到两点认识：1）3D结构很重要，因为BEV不足预测精确的3D BBox；2）point-voxel特征交互费时，影响效率。

设计的Voxel R-CNN model概览图如下：

voxel RoI pooling是从3D voxel特征体中聚集spatial context。这里提出一个新操作符，voxel query，在3D特征体中找邻域voxel，可以聚类voxels。如图所示：

在一个距离范围寻找K个voxels，其中采用Manhattan距离，即

基于此，采用PointNet模块聚集邻域voxel features，记gi是grid points，vi是voxels，那么最后特征如同下面公式计算：

作者只是从3D 主干网络的最后两级提取voxel特征，每一级的曼哈顿距离门限不同，最后把不同级和尺度的特征拼接在一起得到RoI特征。

不过，这个聚集特征过程计算量仍然很大，作者采用了加速方法，如图所示：

网络架构设计基本从SECOND和PV-RCNN过来的。推理中，RPN中IoU门限=0.7做NMS，得到top-100 region proposals进入detection head；细化后NMS再次应用，这里IoU门限=0.1去除冗余。

训练中loss函数如下：

RPN的损失项

其中分类采用Focal loss，box回归采用Huber loss。

先定义一个confidence分支和IoU相关的数值

框回归分支也采用Huber loss。这样，检测头的损失项

实验结果如下：

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

3Ｄ视觉工坊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。