如何提高3D点云目标检测的难例精度?

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

文章导读

本文是一篇将注意力机制应用在点云目标检测中的文章《TANet: Robust 3D Object Detection from Point Clouds with Triple Attention》,通过三元注意力机制强化目标信息,并用二级回归的方法提高定位精确度。

目录

  • 前沿

  • 核心思想

  • 框架结构

  • 实现细节

  • 要点分析

  • 思考展望

前沿

3D点云目标检测通常采用三种策略:

1. 基于原始点云的方法,设计网络提取特征,然后用两阶段检测网络估计结果;

2. 基于体素的方法,将点云转换成规则的体素网格,然后采用3D卷积做目标检测;

3. 基于鸟瞰图的方法,将3D点云编码成2D图像的方式,用图像目标检测的思路做目标检测。

但是在复杂场景下的3D点云目标检测效果仍然不佳:

1. 难以检测的对象(如行人)的检测准确率不够好;

2. 添加额外的噪声点后,现有方法的性能迅速下降;

主要产生的原因如下:

1. 行人等小目标的体积小于车辆,激光雷达扫描到目标上的有效点较少。

2. 行人所处的环境有大量可变背景物体(如树、灌木丛、电线杆等),在前景有效点较少的情况下,背景的复杂很大程度影响目标检测效果。

核心思想

针对以上的分析,本文设计了两个新颖的模块来提高网络的鲁棒性:

1. Triple Attention。结合通道注意力、点注意力和体素注意力来增强目标的关键信息,并抑制不稳定的点。其中通道注意力用于判断每个体素中哪些通道更加重要;点注意力用于判断一个体素中哪些点更加重要;体素注意力用于判断在所有体素网格中哪些网格更加重要。

2. Coarse-to-Fine Regression。采用两阶段回归的方法,将粗略回归的输出bbox作为精确回归的anchor,模块在不过度消耗计算成本的情况下提升定位准确率。

框架结构

本文首先将点云均匀分割成体素网格,然后用堆叠三元注意力模块分别处理每个体素,获得更具判别性的表达。之后用最大池化方法聚集每个体素内的点,从而为每个体素提取紧凑的特征表示。最后使用二次回归模块生成最终的 3D 边界框。如下图所示:

实现细节

1. Triple Attention

三元注意力机制分别由点注意力,通道注意力,和体素注意力组成。如下图所示:

V是输入体素网格,首先使用Point-wise和Channel-wise得到融合的注意力特征图M,根据它得到注意力作用后的体素特征F1,体素注意力机制作用在F1上,得到最终体素特征F2。

2. Coarse-to-Fine Regression

粗糙到精细的回归是一种二级回归的方式,利用粗糙回归模块的输出外接框作为细化回归模块的锚点来执行 3D 边界框估计。如下图所示:

Fine Regression输入是Coarse Regression的中间变量。可以说Coarse Regression部分网络指导Fine Regression部分网络。

要点分析

1. 借鉴NLP和图像领域较火的注意力机制,采用此类万金油模块提取被关注目标的特征信息,设计了针对点云特性的Triple Attention模块,该模块联合考虑通道注意力、点注意力和体素注意力,并执行堆叠操作从而获得多级特征注意力,进而得到对象的判别表示;

2. 考虑到在在噪声环境下,仅应用单个回归器模块做 3D 边界框定位的效果不佳。提出新型 coarse-to-fine regression 机制,基于粗糙回归结果,利用新型 Pyramid Sampling Aggregation融合方法得到跨层特征图,并细化基于融合后的跨层特征图实现,从而得到更精细的估计结果。

3. 该方法在难度较高的噪声环境中取得了不错的实验结果,在 KITTI 基准数据集上的量化比较结果表明,TANet 方法获得了当前最优性能,且其推断速度很快。

上图是本文在难例检测上与PointPillars的对比效果图。针对小目标的检测常规的网络会有较多的漏检和误检问题。

思考展望

该文主要解决了前面提到的两个问题:提高了难例检测的准确率;增强检测在噪声环境下的鲁棒性。

虽然实验结果的提升并没有太大的飞跃,但是这种注意力机制模块属于即插即用型,完全可以集成到其他更先进的网络结构中。二级回归的思想有点类似于Faster RCNN系列相对于YOLO系列的差别,在图像的两阶段检测中就是在第一阶段预测出前后背景,第二阶段针对某区域的前景在做位置的回归。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值