目标检测3: yolov3结构原理，boundingbox边框回归

最新推荐文章于 2024-08-08 16:46:33 发布

ming.zhang

最新推荐文章于 2024-08-08 16:46:33 发布

阅读量1.5w

点赞数 18

分类专栏：目标检测文章标签：目标检测

本文链接：https://blog.csdn.net/u010397980/article/details/85058630

版权

目标检测专栏收录该内容

9 篇文章 1 订阅

订阅专栏

注：a.部分图像是从其他博客偷的!!!；b.个人理解，错误难免，推荐看论文（yolov3:https://arxiv.org/abs/1804.02767；yolov2:https://arxiv.org/abs/1612.08242；yolov3:https://arxiv.org/abs/1804.02767）

1. 结构图

yolov3-tiny结构（darknet的）：

yolov3-tiny结构（网上偷的）：

yolov3完整结构1:（darknet的）

完整结构图(偷的)

简单结构图（偷的）：

基础网络darknet53的特点：全部采用卷积；使用卷积核stride=2缩小特征图的尺寸(yolov2使用的是maxpooling)；引入了残差结构使网络可以更深。

目标检测的结构：采用3种尺度的预测输出(13x13, 26x26, 52x52)；采用与特征金字塔网络(Feature Pyramid Networks，见下图https://arxiv.org/abs/1612.03144v2)类似的操作，可以获得更多的语义信息；

2.网络输出：
yolov3一共有9个anchor，3个输出，每个输出用3个anchor，所以输出的每个位置预测3个box。对于13x13的输出，每个box的参数包括tx, ty, tw, th，及该box有物体的置信分数，该box中为每类物体的概率。

因此，对于VOC数据集，类别为20，带入上图的公式中yolov3的输出3种尺寸的大小为：13x13x(3*(20+5))=13x13x75, 26x26x(3*(20+5))=26x26x75, 52x52x(3*(20+5))=52x52x75。

3. boundingbox回归：
下图为预测boundingbox的公式。预测边框时cx, cy为相对于左上角的位置，每个小格的长度为1，图中此时cx=1，cy=1。tx和ty分别经过sigmoid输出0-1之间的偏移量，与cx, cy相加后得到bounding box中心点的位置。pw, ph是手动设置的anchor宽和高，tw, th分别与pw, ph作用后得到bounding box的宽和高。这样就能得到预测boudingbox的x,y,w,h了，我们的目的是让预测的x,y,w,h和真实的groundtruth接近，于是我们就可以写loss了。

800