YOLOV3

YOLOv3性能  作者直接把性能花在Retinanei数据图上了

左图是不同阈值  右图是阈值0.5

132c825e2a3544c6b2fe886f63a511cf.png

 map就是算出的所有阈值的ap做平均             

为啥第一个图比第二个图低呢?  因为第一个图是阈值达到0.95 那得和标注的多重合啊 那得多了不起啊  so 肯定没有那么强 就低了点   。而第二个阈值0.5 重合0.5就行 那就肯定比0.95高啊

反正作者说了 高阈值性能不科学哈哈哈哈

d9a4162ddcf94c968b3be6a84014d5a6.png

 68463cc80fd9409c82e7c8f4ecf55e42.png

f1b08852adc745cd9c22126a019c819e.png

 YOLOV2是Darknet-19 有19层  

53 就是52个卷积和一个全连接层 并且里面加了残差连接

4da6bef75d864f8e805a32533534df0f.png

 骨干网络最最重要啦 !!!!!!!!!!!!!!!!各个领域都是以骨干网络提取的特征来进行后处理得到的!! 他是提供食材的人    目标检测头 或者关键点检测头是做饭的厨师

52个卷积 是把所有的convolutional加上 不算residual哦  一共是52 然后加上最后的全连接层=53

 训练好这个IMagnet一千分类的骨干网络之后 后面的全局平均池化层拿掉 他就是作为特征提取器

注意里面的步长为2哦 可能是2导致的下采样

5ad2d4be56684e6ba354ee8a2d69bb38.png

 437bae8dbfb54dac96a6a24d3638bd0a.png

b71b03c989a24bd2bca6761e7c20dc25.png

输入图像得到三种尺度特征 在进行后续多尺度目标检测。

346ee2d1bdab4fd6a5e1f443c9c6a74c.png0fb2b7ec15344aa2be6eab7b168ed19a.png这三个尺度分别下采样了32 16 8倍

如果输入416*416 图片 下采样:416/32=13*13    26*26   416/8= 52* 52

 因为把后面的分类头拿掉 他就变成了全卷积网络 里面没有全连接层 所以可以兼容任意尺度的图像

256 608 416 只要是32的倍数  因为我们下采样是32的倍数哦

  ccc28aad369548be91cec77de73c32b8.png

第二个坐标开始  :         性能不错  运算量小 更高效运算GPU     fps更臃肿一些 有点慢 但是也高于v1用的19

浮点运算量 更高效利用GPU

ccd110992c1c4dc490bce3a2e5917299.png

 v1 gridcell=7                24层卷积2全连接层    boundingbox

db69ad0e678a4447a547c7fa5cd73c7e.png

v2  gridcell=13         Darknet-19  18卷积+1全连接层   anchor(先验框 是那种已经差不多检验高瘦物体的anchorbox就都是那种高瘦的anchorbox)

aeb9dcc3564b47e2a11fe219d697131f.png

 知乎江da白绘制的图

输入416*416*3  输出 是三个尺寸的featuremap13*13*255、 26*26255、52*52*255  

255---------------3* 85     3:每个gc生成3个anchor  每个anchor对应一个预测框 每个预测框对应5+80维     5:xywhc  coco数据集80个类别的条件类别概率

13*13*255对应原图像的感受野就是32*32、   那也就是说13*13负责预测大物体 

因为416/13=32    那个13就是分格格呀 gc啦

26*26255                                         16*16、      中等

52*52*255                                          8*8 、      小物体

 24e0c40d98c348ffa82e8c154cab43c4.png

b74d1782c2164e409d502250cd2b7617.png

上采样2倍(3*2 =26) 在和骨干网络26*26尺度的特征进行拼接 经过处理得到26*26*255

concat : 两个作业本摞起来的操作 两个本厚度不一样 就沿着厚度方向摞起来

26*26这个也上采样2倍(26*2=52)和骨干网络52*52尺度的特征拼接 处理得到 52*52*255的特征

也就是说:  其实最后那个52*52*255的特征 融合了前面26*26特征 也融合了13*13的特征 

31d44442038445c8bf94327d40776fbe.png

 发挥了深层网络的语义特化抽象的特征 也充分利用了浅层网络的细粒度的像素级别的边缘转角结构信息的底层特征

多尺度特征融合 不同尺度物体检测

ecda7f7a6e094eab8cf7c58d0e1b2760.png

条件概率: 假设这个框已经存在物体了 他是猫的概率 狗的概率

300d0313d26e4e22b91abc3e214cd2b6.png

 dc5c67fab08e4c9abaab81fbbbc4d3ac.png

 f159587f2ebe429a8802b5245124ee8f.png

72d2b90ebe8d448fb411914a7447a500.png

5713952f2ccb4ea49830cd32de45d822.png

 骨干 颈部 头   

Backnone提取     Neck融合特征fpn          head最终预测结果 33cfeac33de34110a652cbcf68e10452.png 

骨干 是全卷积网络  没有全连接 可以兼容32倍数的不同尺度

d65a5305e7cf4ab69c6ac335377a5103.png

 4eb1a4aeb049466ba33058885140879d.png

cde157423ad641b4840c9342d98681ae.png

 共有9个anchor

83d110f970294750a63d8d019380a130.png

不再看物体中心点落在哪个gridcell里了  看谁的anchor的iou与物体的iou最大 由大的那个anchor(预测框)预测物体

非最大的就不是正样本

605ca9c1158c4b32b53502bb13757e10.png

 后验概率的置信度  可视化能看见每个框能看见是数字

 YOLOV3 过程

狗人工标注的黄色框 中心点是红色的那个框吧

红色那个gc会有三个anchor  找到与标注框iou最大的那个anchor   用他来预测物体

be90aaaa90904a1c8067482bb88fcb1f.png

 f9f413a14c6a406a88f54ada62973ca1.png

351db5cd7a4f4cc1a55b7a776a64e100.pngYOLOV1是最多98个

c605b9d62207401bad87f0a63e7e44b3.png90d866f96c5a409d862d0ba594dceb42.png8d204d95c1f6484f81969394430bda5d.png

输入图像越大  得到的gridcell也大预测框的数量就是gridsize的数量*3      ,得到的三个尺度的预测框数量也多   6f8a753999a348f2ae1f7cd961c700fc.png

74aae4dff4e04285bd5cecb87b2952be.png

 d0852dc67d05499c83021d5330342ea5.png

 f594e7c441ef46b4aece19d6ac594075.png

 正负样本的选取!!!!!!!!!!!!!!!!!!!!!!!!!!!iou

大于阈值 iou最大                                          正样本    

 大于阈值但不是iou最大  忽略

小于阈值就是                                             负样本     蓝色和绿色!!

5f60737cb399406eb6f822477a46cbbe.png

不同代码可能实现的损失函数不一样

训练

22c299e00d0b466bb5b42db5a4f3da2a.png

测试

 2cdfc94f4a3c4e0aa5c371bd0cc92f64.png

 conf-score就是那个 后验概率

代码 

39935c05ff7f47a3886a0271599d86de.png

731207b9b5e2470ea410101ea746012c.png

 评估指标

10233bb349dd418fb556383ee019eba3.png

 5b9cfc034da8434da98267865a844461.png

加dense模块  空间金字塔池化           spp  

45e5c1a4aa974f6cab884c966279165b.png

 9125ced10c0246daafe8e7236c1c3db6.png

 0fb9e03f579644cb8c36931619802d4c.png





精读视频

913f4304fee44087b595c13c9c8562da.png

00d2ffebf9a14d1d9ef166606e626901.png

45035c2f83204fea9da24050a5a6051b.png


12d08125249f46ef9bc0e72059cdeb70.png

 256/8=32   32*32对应原图的感受野是8*8

416/8=52    52*52对应原图的感受野也是8*8

416/32=13                              感受野是32                 感受野大预测大物体

bc852ab77a7a4055beaee2b34db20601.png

490c54e5ea674a2196b82ebf46839ce9.png

53467ff111314246aa9dcf105d223de0.png

残差 batchnomalzation (BN)都是很常用的配置  

用了就可以来引用文献啦

dd3007a9a0ed48c2b1fcb32d61c0490c.png

 c396ece2bbc44e30af2bdec3add689db.png

 性能指标!!!!!!子豪兄的论文

论文里的IOUthresh=0.5

Pthresh是置信度阈值   假设0.2吧

两个都是人工指定的   

根据预测框和gt的iou就能知道他在哪个区间 就是下面那四个可能966489e8390b445d9cb76ce6857af1f8.png

 93c704654e384d1693c0008fe94764b9.png

 FP 本来是背景 但是还给他预测出来了    本来是没有猫  但是预测出一个小猫的框

FN  定位不错 但是置信度预测出来的太小了

2419f413c9e0486f9ae0c96f1d0836a9.png

 TP 除以竖着54797f5c785640e99b6a30ec3a96874d.png

  TP 除以横着

c240d69e3ef641168682f752facb6166.png

 map0.5求一次平均              0.5:0.95求单独类别的平均  还得再求每个类别的平均

f134c7825c474f859dcf41e92981af6d.png

4040735b08fd44a5bae9fb4685b7bde5.png

 4.

Focal loss  看重暧昧的那个人 也给他高权重 效果nononoa7d55e953d29419c9c846738a517dd37.png

 2e0dce5c8478481f8298f448054cf3d2.png

loss

绿绿黄   三个数非零即1 

这三项都遍历了所有的预测框

01500b97b52e4388b6650dbf44e9da16.png

假设猫的预测值Pc  gt是猫

第一项   -log(pc):   -log猫的预测值   预测值越接近1 loss越小

第二项BCE是猫 标签Cihat是1

397732693378422784ebac140a80a8e7.png

 230adee75bb248e89a3eadc3f2e89eaf.png

没听懂 

dae52aa1fc974d43a3495091e90e4c3b.png


9a5959ca86a04317989f0df54c33a786.png

c0a4b8c88cee42b3ab132d98e637f3ef.png

5487832b117f44e19640648234160206.png

2bf84164df5746ec992a8b6a111895dd.png




传送带:大佬们的文章

【目标检测 论文精读】……YOLO-V3 ……(搞笑向学术报告---An Incremental Improvement)_深度不学习!!的博客-CSDN博客_yolov3论文题目文章目录1.V1,V2回顾:2.Abstract(摘要)3.Introduction(引言)4.The Deal(处理)5.yolov3结构模型:今天看一下yolov3吧,据说这是原yolo作者的最后一篇论文,v4,v5都是其他人写的了。这篇并不算是一个严谨的论文,而是像一篇搞笑向学术报告,不过看上去格式还算正规,并没有像hinton大佬的那一篇dropout那样乱哈哈。论文题目: An Incremental Improvement论文下载地址:https://arxiv.org/pdf/1804https://blog.csdn.net/qq_38737428/article/details/124912050

YOLO v3网络结构分析_太阳花的小绿豆的博客-CSDN博客_yolov3网络结构相信阅读了YOLO v3论文的小伙伴们会发现为什么这次的论文篇幅这么少?除去参考文献就四面?Excuse me?我是下了篇假文献吧。读完后感觉内容确实不多,而且总感觉写的不够细致,很多地方都比较模糊,可能是作者想让大家去观摩他的代码吧。本人是小白,看后表示有点蒙。于是在Github上搜了大牛们基于Tensorflow搭建的YOLOv3模型进行分析(本人只接触过TF,所以就不去看caffe的源码...https://blog.csdn.net/qq_37541097/article/details/81214953?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165874694016782425116611%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=165874694016782425116611&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-81214953-null-null.142%5Ev33%5Epc_rank_34,185%5Ev2%5Econtrol&utm_term=yolov3%E7%BD%91%E7%BB%9C%E7%BB%93%E6%9E%84&spm=1018.2226.3001.4187 霹雳

目标检测经典论文——YOLOv3论文翻译:YOLOv3: An Incremental Improvement(YOLOv3:增量式的改进)_bigcindy的博客-CSDN博客YOLOv3: An Incremental ImprovementYOLOv3:增量式的改进Joseph Redmon Ali FarhadiUniversity of WashingtonAbstractWe present some updates to YOLO! We made a bunch of little design changes to make it better. We also trained this new networ...https://blog.csdn.net/Jwenxue/article/details/107717537?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165871767916782184643988%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=165871767916782184643988&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~rank_v31_ecpm-9-107717537-null-null.185^v2^control&utm_term=yolo&spm=1018.2226.3001.4450

【目标检测 论文精读】……YOLO-V3 ……(搞笑向学术报告---An Incremental Improvement)_深度不学习!!的博客-CSDN博客文章目录1.V1,V2回顾:2.Abstract(摘要)3.Introduction(引言)4.The Deal(处理)5.yolov3结构模型:今天看一下yolov3吧,据说这是原yolo作者的最后一篇论文,v4,v5都是其他人写的了。这篇并不算是一个严谨的论文,而是像一篇搞笑向学术报告,不过看上去格式还算正规,并没有像hinton大佬的那一篇dropout那样乱哈哈。论文题目: An Incremental Improvement论文下载地址:https://arxiv.org/pdf/1804https://blog.csdn.net/qq_38737428/article/details/124912050

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Yolov5和Yolov3是目标检测算法中的两个版本。Yolov5是Yolov3的后续版本,由俄罗斯的Alexey大神开发。Yolov3是在2018年提出的,而Yolov5则是在Yolov3之后不久问世。 Yolov3和Yolov5都是通过使用深度学习的方法来实现目标检测任务。它们都采用了基于卷积神经网络的架构,通过将输入图像分割为不同的网格,并对每个网格预测目标的位置和类别。Yolov3和Yolov5都具有较高的实时性能,能够在较短的时间内处理大量的图像。 然而,Yolov5相对于Yolov3来说在性能上有所提升。举例来说,在COCO数据集上,当两者的FPS(每秒处理的帧数)相同时,Yolov4的平均准确率(AP)约为43,而Yolov3则为33,Yolov4相较于Yolov3有了10个百分点的提升。这意味着Yolov5能够更准确地检测和识别目标。 总结来说,Yolov5是在Yolov3的基础上进行改进和优化的目标检测算法,具有更高的准确性和性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [深入浅出Yolo系列之Yolov3&Yolov4&Yolov5核心基础知识完整讲解](https://blog.csdn.net/qq_15615505/article/details/114005146)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值