目标检测与MMDetection
目标检测任务介绍
- 物体的数量/位置/大小均不固定
滑窗 Sliding Window
- 设定一个固定大小的窗口
- 遍历图像所有位置,用分类模型识别窗口中的内容
- 为了检测不同大小、不同形状的物体,可以使用不同大小、长宽比的窗口扫描图片
- 问题:计算成本不可接受
- 改进:
- 使用启发算法替换暴力遍历(RCNN、Fast RCNN中的Selective Search)
- 使用CNN一次性计算所有特征,再取出对应位置的特征完成分类(目前常见)
密集预测
使用不同感受野的CNN生成一系列特征
基本范式
图像 - 主干网络backbone - 检测头head - 背景/物体
- 两阶段方法:以某种方式产生窗,再基于窗口内的特征进行预测
- 单阶段方法:在特征图上基于单点特征实现密集预测
基础知识
- 框/区域、边界框
- 区域提议网络
- 感兴趣区域
- 锚框anchor
- 交并比Intersection over Union
- 置信度Confidence Score
- 非极大值抑制Non-Maximum Suppresion
- 边界框回归
- 边界框编码
两阶段目标检测算法
- RCNN:慢
- Fast RCNN:ROL Pooling/ROL Align
- Faster RCNN:锚框anchor、区域提议网络RPN、特征金字塔网络FPN
- Mask RCNN
- 近年逐渐被单阶段算法取代
单阶段目标检测算法
直接通过密集预测产生检测框
需要专门处理样本不均衡问题
- YOLO:快
- SSD:困难负样本挖掘(样本不均衡问题)
- RetinaNet:focal loss
- YOLOv3:三级特征图、三个尺寸的锚框
无锚框目标检测算法
- FCOS:多级特征图
- CenterNet:以中心点表示物体
Transformers
- DETR:将检测建模为从特征序列到框序列的翻译问题
- Deformable DETR:显示建模 query 注意的位置,收敛速度更快
目标检测模型的评估算法
- “准确-召回”曲线
- AP:PR曲线下的面积
- Mean AP:分类别统计AP后取平均