简介
给定一张图片,用矩形框框出所有感兴趣物体司时预测物体类别。
应用领域
- 人脸识别:身份识别、属性分析
- 智慧城市:垃圾检测、非法占道检测、违章停车检测、危险物体检测、自助服务智能办公、烟雾与火灾侦测、标准着装监测、危险行为检测
- 自动驾驶:环境感知、路径规划与控制
- 下游视觉任务:两阶段光学字符识别算法、两阶段人体姿态估计算法
技术演进
基础知识
框,边界框 (Bounding Box)
框泛指图像上的矩形框,边界横平竖直
描述一个框需要 4 个像素值:
- 方式1:左上右下边界坐标 ( l , t , r , b ) (l,t,r,b) (l,t,r,b)
- 方式2:中心坐标和框的长宽 ( x , y , w , h ) (x,y,w,h) (x,y,w,h)
边界框通常指紧密包围感兴趣物体的框检测任务要求为图中出现的每个物体预测一个边界框
交并比
目标检测的基本思路
滑窗(Sliding Windows)
效率问题:
感受野 (Receptive Field)
边界框回归 Bounding Box Regression
非极大值抑制 Non-Maximum Suppression
密集预测模型的训练
匹配的基本思路
密集预测的基本范式
尺度问题
基于锚框
图像金字塔Image Pyramid
基于层次化特征
特征金字塔网络 Feature Pyramid Network (2016)
多尺度的密集预测
单阶段算法概述
Region Proposal Network (2015)
YOLO: You Only Look Once (2015)
YOLO的匹配和框编码
YOLO的损失函数
SSD: Single Shot MultiBox Detector (2016)
SSD的匹配规则
RetinaNet (2017)
单阶段算法面临的正负样本不均衡问题
降低简单负样本的损失
YOLO v3 (2018)
无锚框目标检测算法
锚框 vs 无锚框