关于YOLOV3的一些疑点

YOLOv3的一个疑点

  在SSD的学习中,笔者发现了现存的关于YOLOv3的一个误区,是网上一些所犯的一个知识性的错误。

target

在这里插入图片描述
 如上图所示,尺度(1313)的特征层用来检测小尺度;而(5252)的特征层则是用来检测大尺度。 这一知识性的错误不仅仅只是一个作者所为,这种错误也不能说完全错误,这正如在武汉朝南走也的确可以到北京一般。我们不能一棒子就敲死这种做法,因为每个特征层都可以用来检测不同尺度的物体,但就效率或者从概念程度而言是错误的,一种南辕北辙的做法说到底是不科学的做法。笔者将从二个方面来解释这种做错:一则是从概率上来解释这种错误,二则是从实际例子来解释。

多尺度检测的概念

 多尺度检测是指网络通过生成多种锚框来检测一张图片中不同尺度大小的图片,列如一张图中同时存在一个人以及一条狗,那么一个锚框对检测就有所欠缺,因此无数的学者针对这一问题提出了用不同尺度的锚框去检测物体。在这里插入图片描述
在YOLOv3中所在是用的九个锚框。那么结合上面所提到的YOLOv3的不同的三个特征层,确定哪个特征层更专注于检测小目标则是一个非常重要的问题。因为只有确定哪一个特征层更适合检测小目标我们才能有的放矢的进行模型的提升。
 我们在看一张图片时,当它离我们眼睛越近则看到图片中的信息关于细节的也就越多,也就是我们所谓的"location information"。但是一些高级语义信息就丧失了,以至于我们无法得知物体是个什么。相反的是,当我们离图片越来越远时,我们可以得知物体的种类,但是却丢失了“location information”。这一现象所描述的就是众多论文中所含有的一个被称之为“Receptive Filed ”。感受野代表着网络所能感触图片的局部大小,越大的感受野也就越适合检测大图片,同样的越小的感受野就越适合检测小的目标。这与我们此前所述即到的现象一致。
 此前的关于某一层更适合检测小目标的问题就变成了哪一层的感受野更小呢?因为越小的感受野越适合检测小目标呀!总所周知的是,YOLOv3的主干网络层Darknet53,从最初的输入层(batch,3,416,416),到最底层(batch,3,13,13)这一过程在不断的进行下采样,所谓下采样从人言而观则是缩小图片,缩小图片即在放大感受野,就如同将你眼前的图片慢慢向远处离去。你看到的高级语义信息也就越多,越能清楚的知道“目标是个什么?”因此从概念层次而言,最底层的(1313)的特征层所拥有的的感受野应当是最小的,也更适合检测大目标!而(5252)的特征层所处的层由于下采样次数并没有(13*13)层的下采样次数多,因此更适合检测小目标!

从锚框大小来看

在这里插入图片描述
 上面所展示的是笔者从YOLOV3的代码层所提取出来的YOLOV3的九个锚框的相对大小(对于本特征层而言,YOLO进行了转化,在原本的大小上分别除上了32、16、8),我们也可以从表格上清楚的看见红色部分的数据:(13 x13)特征层的锚框是三者中最大的也就代表着更适合检测大目标,而(56x56)特征层的锚框最小,更适合检测小目标!

一篇关于YOLOv3各分支的检测报告

Improved YOLOv3 Based on Attention Mechanism for Fast and
Accurate Ship Detection in Optical Remote Sensing Images

 上述论文是来自于武汉大学陈丽琼学者的一篇论文,在该文章中有一组数据引起了我的注意。在这里插入图片描述
在这里插入图片描述
 该学者在他本人的模型中对YOLOV3的各个branch进行了不同尺度的测试。从表格中带下划线的数据可以看出不同尺度的物体在YOLO各个分支所拥有的MAP指标。通过数据也可以得知Big ship在 Branch-3的MAP最高,而Branch-3对应的特征层是(13x13)。因此进一步的证明了YOLOV3负责检测大尺度的特征层由(13x13)来负责会表现的更好,而(52*52)负责检测小目标会表现的更好

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值