注:a.部分图像是从其他博客偷的!!!;b.个人理解,错误难免,推荐看论文(yolov3:https://arxiv.org/abs/1804.02767;yolov2:https://arxiv.org/abs/1612.08242;yolov3:https://arxiv.org/abs/1804.02767)
1. 结构图
yolov3-tiny结构(darknet的):
yolov3-tiny结构(网上偷的):
yolov3完整结构1:(darknet的)
完整结构图(偷的)
简单结构图(偷的):
基础网络darknet53的特点:全部采用卷积;使用卷积核stride=2缩小特征图的尺寸(yolov2使用的是maxpooling);引入了残差结构使网络可以更深。
目标检测的结构:采用3种尺度的预测输出(13x13, 26x26, 52x52);采用与特征金字塔网络(Feature Pyramid Networks,见下图https://arxiv.org/abs/1612.03144v2)类似的操作,可以获得更多的语义信息;
2.网络输出:
yolov3一共有9个anchor,3个输出,每个输出用3个anchor,所以输出的每个位置预测3个box。对于13x13的输出,每个box的参数包括tx, ty, tw, th,及该box有物体的置信分数,该box中为每类物体的概率。
因此,对于VOC数据集,类别为20,带入上图的公式中yolov3的输出3种尺寸的大小为:13x13x(3*(20+5))=13x13x75, 26x26x(3*(20+5))=26x26x75, 52x52x(3*(20+5))=52x52x75。
3. boundingbox回归:
下图为预测boundingbox的公式。预测边框时cx, cy为相对于左上角的位置,每个小格的长度为1,图中此时cx=1,cy=1。tx和ty分别经过sigmoid输出0-1之间的偏移量,与cx, cy相加后得到bounding box中心点的位置。pw, ph是手动设置的anchor宽和高,tw, th分别与pw, ph作用后得到bounding box的宽和高。这样就能得到预测boudingbox的x,y,w,h了,我们的目的是让预测的x,y,w,h和真实的groundtruth接近,于是我们就可以写loss了。
下一篇:retinanet:https://blog.csdn.net/u010397980/article/details/85058767