YOLO系列论文笔记--YOLOv3

最新推荐文章于 2024-10-06 20:45:31 发布

gongp**?

最新推荐文章于 2024-10-06 20:45:31 发布

阅读量3.2k

点赞数

分类专栏：论文笔记 YOLO系列

本文链接：https://blog.csdn.net/gongpanhao/article/details/79872379

版权

论文笔记同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

YOLO系列

3 篇文章 0 订阅

订阅专栏

YOLOv3在YOLOv2基础上进行了改进，尽管网络增大，但保持了高准确率和快速性能。它在320*320尺寸下达到28.2mAP，测试速度22ms，相比SSD有三倍速度优势。YOLOv3通过三个不同尺度的特征预测，使用Darknet-53网络，结合了Darknet-19和残差块。在训练中采用多尺度和数据增强策略。尽管在某些方面性能稍逊于其他模型，YOLOv3在小目标检测上表现出色。

摘要由CSDN通过智能技术生成

YOLOv3

继续的改进；比YOLOv2的网络大，但准确率高仍旧快；320*320YOLOv3，28.2mAP，测试一张图片22ms，与SSD一样准确速度是SSD的三倍；YOLOv3的AP50为57.9（51ms），RetinaNet为57.5（198ms）；

--Bounding Box预测：与YOLOv2相同；

--类预测：不使用softmax，因为有些boundingbox包括多标签（不能很好的适用其它数据集）；使用独立的logistic分类器与二值交叉熵损失；

--跨尺度预测：从三个不同的特征尺度预测（类似于特征金字塔）；对于COCO预测tensor为（n*n*[3*(4=1=80)]）（每个尺度预测三个anchor）；除了网络最后的尺度外，另外两个利用最后包含语义信息的特征Map2倍上采样所得到的Map与前面层包含较多细节信息的Map进行叠加，然后经过一系列卷积处理得到最终的检测所需的特征Map（实现的具体细节请阅读论文）；bounding box priors依然由k-means聚类得到，按顺序选择前9个聚类，然后将这9类在3个不同的尺度均匀划分；COCO 数据集的9个聚类为：(10*13)， (16*30)，(33*23)，(30*61)， (62*45)， (59*119)， (116*90)，(156*198)， (373*326)；

--特征提取：新网络（Darknet-53）由Darknet-19和residual网络混合而成；Darknet-53比Darknet-19更强大，比ResNet-101和ResNet-152更有效率，每个网络训练具有相同的设置（Titan X，256*256）；

--训练：训练在整张图片上（无hard negative mining和其它的处理）；多规模训练，batch normalization，大量的数据扩展和其它标准的东西；

实验

--实验分析（COCOs）：YOLOv3在AP上SSD的变体持平，但速度是它的3倍，并且落后于一些模型；在AP50上，几乎与RetinaNet持平但远高于SSD的变体（表明YOLOv3能很好的为对象预测Boundingbox），然而在当IOU增加时，性能下降（表明不能将生成的boxes与目标完美的对齐）；运用了多尺度，提高了网络对于小目标的性能，但是对于中大目标其性能不是很好（原因论文尚未分析出）；

--尝试的改进但未成功：（1）Anchor box (x,y)偏置的预测；（2）Linear x，y 预测而不是logistic；（3）焦点损失：mAP降低2个百分点，可能大多数样本没有损失（没有确定）；（4）双IOU阈值与truth指派；

--结论：对于这篇论文最有感触的一句话：我们有责任为我们的工作所带来的危害考虑，并思考如何去减少这些危害。作为一个计算机方面的新手，以前总是为了发论文而看论文，可是当我认真的看了一些论文时，我发现我喜欢上了这种为了验证自己的逻辑而做一系列实验的过程，直到看到这篇论文的最后一句话，才忽然明白，所谓的学术不只是这些，而是要以“造物主”的思想去赋予新事物于“灵性”。