06 MMDetection
记录时间:2023年6月8日
教程
总体内容
目标检测 VS 图像分类
根据之前的课程,感觉 目标分类——>目标检测——>姿态估计 是一个递进关系。
目标检测应用
- 人脸识别
- 智慧城市
- 自动驾驶
- 下游视觉任务
目标检测技术演进
Open Vocab Detection为业界的最新研究方向
基本概念
框
交并比
感受野
感受野的中心与步长
有效感受野
置信度
图中包含了目标检测中的两类置信度计算方法
目标检测问题难点
已经具备了识别并分类物体的能力,难点在于物体的定位
基本范式
一个好的检测器应该满足不重不漏的要求
滑窗
-
设定一个固定大小的窗口
-
遍历图像所有位置,所到之处所用的分类模型识别窗口中的内容
-
为了检测不同大小、不同形状的物体,可以使用不同大小、长宽比的窗口扫描图片
问题
计算成本过大
改进思路
-
使用启发式算法替换暴力遍历,比如Faster-RCN,但现在已经不再使用。问题1:啥叫启发式算法?
-
减少冗余计算,使用密集预测。在滑窗算法中,一个图像的许多部分被一个同样的卷积核卷了好多次,是重复的计算,因此如果可以将这些重复的计算消去,则可以大大提升效率。考虑是否可以一次性计算所有的特征,再取出对应位置的特征进行分类。由原图滑窗改进为特征图滑窗。
卷积存在位置不变性
边界框回归
方法一:基于锚框
方法二:无锚框
非极大值抑制
密集预测基本流程
密集预测模型训练
匹配
由于数据标注基本上都是稀疏标注,因此如何基于稀疏的标注结果去产生一个密集的ground truth。
密集预测基本范式
多尺度预测
多尺度预测是对密集预测的改进,主要是指不同的大小的物体的预测。在朴素的密集检测中,受限于结构,更加擅长中等大小的物体,对于小物体检测能力较弱,定位精度低。如何同时定位小尺度与大尺度物体呢?
基于锚框(Anchor)
图像金字塔
基于层次化特征
特征金字塔(FPN)
单阶段目标检测算法选讲
Refion Proposal Network(2015)
**论文:**Deep residual learning for image recognition(CVPR 2015)
YOLO:You Only Look Once(2015)
SSD:Single Shot MultiBox Detector(2016)
RetinaNet(2017)
FPN从此成为检测算法的标准模块
论文:Focal loss for dense object detection (ICCV 2017)
YOLO v3
YOLO v5
无框目标检测算法
Fully Convolutional One-Stage,FCOS (2019)
CenterNet (2019)
论文:Objects as points (arXiv)
YOLO X(2021)
论文:Yolox:Exceeding yolo series in 2021.