目录
1. 图像目标检测
长方体表示:长宽高、中心点、朝向、类别
思路:先检测后分类
1.1 评价检测好坏
Precision:检测对的概率 Recall:检测到的概率 两者很难兼得
- AP(Average Precision) mAP(Mean over all categories)
- NMS
每一个选择器后面都有一个NMS,选择一个最好的检测框
选择置信度最大的框,再计算其他框与该框的重叠范围IOU,如果大于一定阈值就舍去。
1.2 物体检测的方法
1.2.1 Two-Stage
先定位后检测
- RCNN :本质是一个聚类成框,再对框进行分类。需要对每个框进行分类很慢
- Fast RCNN
先对图像提取特征,再ROI Pooling缩放成统一大小,再经过MLP。分类神经网络是工作在Feature map上的。
ROI Pooling具体过程如下,不管框原先大小是什么,最后都缩放成7*7。
ROI Pooling 有精度损失,提出了ROI Align线性插值
- Faster RCNN
框是深度学习给的
- Mask RCNN 实例分割
1.2.2 One-Stage
把背景看成一个类,每个地方出3个anchor box ,对每一个进行分类,计算位置。没有了先判断框内是否有物体。
2. 点云目标检测
投影视角
三维网格
投影
2.1 VoxelNet
三维卷积pointnet++
有许多方格内是没有点的,不需要传入神经网络 ,加速方法如下
- Data Augmentation
1、对整体点云旋转,但不能旋转太多
2、 对目标进行平移旋转,也不能太多
2.2 PointPillars
空间一堆柱子,每一个柱子压缩成一个平面
- Focal Loss
解决类别不均衡问题,正常情况比较少的类别会被忽略,该方法将注意力转到小的类别上。
2.3 Point-wise operation
2.3.1 PointRCNN
- 得到每个点的feature vector
- 把前景背景分割,每一个前景做一个proposal
- 每一个box做ROI Pooling
所有操作都是以点的形式输入
2.4 Vison Fusion
2.4.1 Frustum PointNet
将图像上的框投影到点云,视觉与LIDAR在时间空间上很难对齐。