本节课主要内容为目标检测MMDetection的理论部分。
首先,什么是目标检测?
分类:给一张图,直接告诉图里有什么。 “类别”。
目标检测:给一张图片,用矩形框框出所有感兴趣物体,同时预测物体类别。 “位置+类别”。
目标检测的一些应用:人脸识别(身份识别+属性分析),智慧城市(如下图),自动驾驶(环境感知+路径规划与控制),下游视觉任务(光学字符识别+人体姿态估计等算法)
图像分类vs目标检测
流程:
滑窗
滑窗的效率问题
改进思路2:分析滑窗中的重复计算
特征图只算一次,后面分类计算不止一次。
在特征图上进行密集预测
密集预测实际上是一种隐式的滑窗方法,计算效率远高于滑窗。
目标检测的基本范式
两阶段方法、单阶段方法
目标检测的演进发展
算法基础知识
框,边界框
框相关概念
1.分割里面区域不等于框,目标检测里区域等同于框。
2.区域提议一般只在二阶段网络里有。
交并比计算
交/并
置信度
简单时置信度就是分类模型预测的概率,不过也有一些YOLO模型使用加权等方法去提升准确度。
非极大值抑制NMS
边界框回归
(预测更精准的边界,这是一个回归问题)
边界框编码
数值范围比较大或者不太规律,网络预测比较难,做一个对数意义的归一化,网络预测不是偏移量的绝对值,而是编码后的值,让回归目标变得容易些,推理时再逆向求出坐标绝对值。
产生问题
降低区域建议的计算成本
朴素方法的局限性
改进——
锚框Anchor
二阶段算法
单阶段算法
YOLO
SSD
SSD的损失函数
为解决该问题,降低简单负样本的损失
Focal Loss
RetinaNet(2017)
YOLOv3(2018)
YOLO系列逐渐发展······
无锚框目标检测算法(anchor free)
不基于框预测,基于点。特征预测物体相对于点的位移。
CenterNet(2019)
Detection Transformers
DETR(2020)
序列 到 序列
问题是收敛特别的慢
改进——
Deformable DETR(2021)
聚焦机制不再是通过attention机制学出来的,而是基于query feature来预测我需要关注图像特征的哪个位置,以及它所对应的weight,加权。
目标检测模型的评估方法
准确率和召回率
PR曲线和AP值