yolov1, yolo v2 和yolo v3系列

本文详细介绍了Yolo系列目标检测模型,包括Yolo V1的网格划分、预测结果和Loss函数,Yolo V2的改进之处如高分辨率分类器、Anchors、Fine-Grained Features和Multi-scale Training,以及Yolo V3的DarkNet53网络结构和FPN思想。通过对不同版本的对比,展示了Yolo系列在速度和准确性上的提升。
摘要由CSDN通过智能技术生成

目标检测模型主要分为two-stage和one-stage, one-stage的代表主要是yolo系列和ssd。简单记录下学习yolo系列的笔记。

1 yolo V1

yolo v1是2015年的论文 you only look once:unified,real-time object detection 中提出,为one-stage目标检测的开山之作。其网络架构如下:(24个卷积层和两个全连接层,注意最后一个全连接层可以理解为1*4096到1*1470(7*7*30)的线性变换)
在这里插入图片描述
yolo v1的理解主要在于三点:

1.1 网格划分:

输入图片为448*448,yolo将其划为为49(7*7)个cell, 每个cell只负责预测一个物体框, 如果这个物体的中心点落在了这个cell中,这个cell就负责预测这个物体
在这里插入图片描述

1.2 预测结果:

最后网络的输出为7*7*30, 也可以看做49个1*30的向量,每个向量的组成如下: (x, y, w, h, confidence) *2 + 20; 即每一个向量预测两个bounding box及对应的置信度,还有物体属于20个分类(VOC数据集包括20分类)的概率
在这里插入图片描述

1.3 Loss 函数理解:

loss函数如下图所示,下面几个概念需要理清楚

s2:最后网络的输出为7*7*30, 因此49个cell;

B: 每个cell(1*30)预测了两个bbox,因此B=2,只有和ground truth具有最大IOU的bbox才参与计算

7*7的正掩膜𝕝𝑖𝑗obj:最开始进行网络划分时,ground truth的中心点落在了该cell中,则该cell出值为1;只有为1出的cell才参与计算

7*7的反掩膜𝕝𝑖𝑗noobj:正掩膜取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值