目标检测及定位中边界框的预测

最新推荐文章于 2025-05-15 11:04:43 发布

菜鸡小码农在线学习

最新推荐文章于 2025-05-15 11:04:43 发布

阅读量384

点赞数 9

文章标签：目标检测目标跟踪人工智能计算机视觉神经网络 cnn

本文链接：https://blog.csdn.net/qq_51552252/article/details/147113284

版权

无法精确输出边界框：窗口大小是预设的，无法适应不同长宽比或大小的目标（如瘦高的人 vs 宽扁的汽车）。需要结合图像金字塔来检测多尺度目标，但计算成本高。传统的滑动窗口方法在目标检测中难以准确预测物体的边界框位置和形状。

网格划分：
- 将输入图像划分为固定数量的网格（如示例中的3×3九宫格，实际应用中常用更精细的网格如19×19）。
- 每个网格单元负责预测一个目标及其边界框。
输出向量：
- 每个网格单元输出一个固定维度的向量（如示例中的8维向量），包含以下信息：
  - pc：置信度（是否有目标，0或1）。
  - bx, by, bh, bw：边界框参数：
    - (bx, by)：目标中心点相对于当前网格单元的归一化坐标（取值[0,1]）。
    - (bh, bw)：边界框高度和宽度相对于网格单元的比例（可大于1，允许跨网格预测）。
  - c1, c2, c3：类别概率（如汽车、行人、摩托车等）。
最终输出：
- 对于3×3网格，输出张量形状为3×3×8（网格数×向量维度）。
- 更精细的网格（如19×19）可减少同一网格内出现多个目标的冲突。

中心点坐标 (bx, by)：
- 相对于当前网格的局部坐标，范围[0,1]。
- 例如：bx=0.5表示中心位于网格水平方向中点。
尺寸比例 (bh, bw)：
- 边界框高度/宽度与网格单元尺寸的比例。
- 取值可大于1（如bh=1.5表示高度是网格高度的1.5倍），允许预测比网格更大的框。