点击上方“CVer”,选择加"星标"或“置顶”
重磅干货,第一时间送达
作者: Geek
https://zhuanlan.zhihu.com/p/80086809
本文已由作者授权,未经允许,不得二次转载
《Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection》
一、摘要:
本篇文章为新自动驾驶数据集nuScenes第一名的算法。作者利用稀疏3D卷积来提取丰富的语义特征,然后将其送入类平衡多头网络以执行3D物体检测。以处理在自动驾驶场景中,类不平衡问题,作者设计了一个类平衡采样和增强策略以生成更平衡的数据,并提出了一个平衡的分组头来提高类别的性能类似的形状。基于比赛结果,我们的方法所有指标均大幅提升PointPillars 基线,在nuScenes数据集上实现最先进的(SOTA)检测性能。
二、主要贡献:
传统我们做kitti数据集只有三个类别(车、人、骑行者),而在Nuscenes中,类别上升到十类,且是以长尾形式存在(大量的车,小量的骑行者),这种数据型态更符合真实驾驶场景,也因此产生出类别不均衡的问题。
本篇文章,作者试图解决Nuscenes中,类别不均衡的问题,具体解决方法有二大点:
一、我们提出了类平衡采样策略来处理,nuScenes数据集中的极端不平衡问题
二、我们设计了一个多组头网络,使类似形状或大小的类别可以从中受益彼此,以及不同形状或大小的类别停止互相干扰。
三、主要方法:
Input阶段:
两种策略解决样本不均衡问题:
一、DS Sampling (作者提出)
基本思想是把占比较小的类别进行复制,制作出较大数据集,然后针对每个类别用固定比例random sample这个大的数据集,组合出最终数据集,最终数据集的类别密度(类别数量/样本总数)是相近的,这方法可以减缓样本不平均问题。
二、GT-AUG (SECOND引用)
把某一样本中的物体点云数据,放到另一个样本中,过程中需要计算摆放位置是否合理。(详见原文)
Network阶段 (3D特徵提取网络、RPN):
使用稀疏3D卷积和skip connection来构建类似resnet的体系结构3D特征提取器网络。这边注意三维的卷积完,会从原本的N ×C ×H ×W变成N× l × C/m × H/n × W/n,五维的没办法用二维RPN进行操作,所以作者讲 l × C/m合并,变回四维,最后使用RPN是类似于VoxelNet的RPN结构(跟SSD类似),先用二维卷积降维三次,才分别反卷积回原大小,Concate在一起,有点类似特徵金字塔的味道,但最后输出是Concate所有从低到高层次的特徵。
(这边说的RPN其实只是RPN head的部份,真正回归object在下一阶段,此阶段是把特徵从3维做成2维让下一阶段好操作)
Head階段(Class-balanced Grouping) :
为了解决类別不均衡问题,作者提出Class Grouping的概念,简而言之,将相似形状的类別分成一个群(Group),让该群中样本数量较多的类去提升样本数量较少的类的精度,而每个Group之间的总数量也接近,如此一来,网络在学习时,就能够减缓数量较多类别有主导整个网络的问题。
二个重点:
手动区分出每个Group中,该Group包含的类别有哪些,主要是透过样本总数与形状进行分组
Group之间样本总数量相近
目标函数(Loss Function) :
目标函数部分参照SECOND, 常见的问题如物体正反向问题(朝向相反),在这部份做了小改进,额外加入自己设计的朝向性分类(这部份没写公式,不确定是二分类正反,还是多一个朝向性分支)
为了降低学习难度,使用了anchor机制,其他设置都SECOND类似,Focal loss做Classification, Smoothl1回归x, y, z, l, w, h, yaw, vx, vy,值得一提的是,每个分支用Uniform Scaling做学习权重。
其他训练调参数细节详见论文。
四、实验结果:
直上结果,目前NuScence第一名,mAP超Pointpillar12个点。
Ablation studies比较有意思,可以看每个trick具体涨点多少,本篇文章重点就DB-Sample,涨点还算是明显。
五、结论:
新的自动驾驶数据集nuScence与kitti其中一个不同点是类别变多,且其类别样本不平均,本篇文章主要提出新的类别不均衡解决方法,透过扩增数据集后,在随机采样以平衡较少的类别,并且将形状类似的分为一组,样本较少的类别能被形状类似的样本较多类别提升精度。
心得(填坑):
本文提出的方法透过较多先验知识来完成,包括类别形状,类别数量等,未来是否能考虑用无监督的方法来学习分组,
2. 进一步探讨解决样本不均衡问题中,DB-sample中相比OHEM、Focal loss等方法有什么优势与劣势,个人觉得DB-sample相比其他解决样本不均衡的方法相对比较手工且暴力。
重磅!CVer-目标检测交流群成立啦
扫码添加CVer助手,可申请加入CVer-目标检测交流群,同时还可以加入目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡)
▲长按加群
▲长按关注我们
麻烦给我一个在看!