目标检测是计算机视觉领域的一项核心任务,旨在识别图像或视频中的特定物体,并为每个物体提供一个边界框和类别标签。随着深度学习的发展,目标检测技术已经取得了显著进展,广泛应用于自动驾驶、视频监控、医疗影像分析等领域。
1. 目标检测的基本概念
1.1 定位与分类
- **定位(Localization)**:确定目标物体在图像中的位置,通常以矩形边界框表示。边界框由四个值表示:左上角的坐标 `(x_min, y_min)` 和右下角的坐标 `(x_max, y_max)` 或中心点坐标 `(x_center, y_center)` 和宽高 `(width, height)`。
- **分类(Classification)**:识别被定位的物体所属的类别。例如,一幅图像中可能有多个人和几辆车,目标检测不仅要检测出这些物体的位置,还要正确地分类为“人”或“车”。
1.2 单阶段与多阶段检测器
- **单阶段检测器(Single)**:如YOLO和SSD,直接从图像中预测物体的边界框和类别,计算速度快,适合实时应用。
- **多阶段检测器(Multiple)**:如Faster R-CNN,先生成候选区域(可能包含目标的区域