YOLOv3论文总结

m0_57131092

已于 2022-02-25 22:36:36 修改

阅读量863

点赞数

文章标签：深度学习人工智能

于 2022-02-25 22:36:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57131092/article/details/123142473

版权

YOLOv3: An Incremental Improvement

原文链接：

[1804.02767] YOLOv3: An Incremental Improvement (arxiv.org)

Abstract 摘要

YOLOv3比前作在体量上稍有扩大，在预测精确度上提升了。

Introduction 简介

本文采用技术报告的形式编写，内容排版比较随性。

The Deal

Bounding Box Prediction

与YOLOv2相同，预测量仍然是五个维度，他们对于边框的位置坐标bx、和含有物体的概率p有如下映射关系：

这种映射关系时的边框更趋向于向中部集中，同时对参数也进行了归一化处理，使得模型更加稳定且易学。

Class Prediction

由于softmax逻辑回归在处理分类词汇表中含有词义重叠的词（如“女人”和“人”）的复杂情况时表现不好，在YOLOv3中用独立逻辑分类器进行推断。在训练时使用二元交叉熵损失进行分类预测。

Predictions Across Scales

YOLOv3中采用类似特征金字塔网络（feature pyramid network）的概念进行多尺度的特征提取，从三个不同的尺度进行边框预测。每个尺度下预测3个边框，在COCO数据集中每个输出层的维度为N×N ×[ 3*(4+1+80)]。

对之前的2个特征层中进行2倍的上采样结合在网络前期获得的特征层进行合并（获得更多的语义信息）从早期的特征映射中获得更多细粒度的信息，再添加几个卷积层来处理这个组合特征层，并最终预测一个相似的张量，尽管现在是两倍的大小。

依旧使用K-均值聚类来进行边界框的先验。只是选择了9个Clusters和3个不同的尺度。注：在COCO数据集上：9个聚类是:(10×13)，(16×30)，(33×23)，(30×61)，(62×45)，(59× 119)，(116 × 90)，(156 × 198)，(373 × 326)

Feature Extractor

YOLOv3采用的特种提取网络Darknet-53，是VOLOv2中采用的Darknet-19和残差网络的结合

Darknet-53网络架构

Darknet-53和当时其他分类器表现不相上下，但是需要较少的浮点数运算，有更快的运行速度。Darknet-53也达到了最快的单秒内浮点数处理数，这表示Darknet-53的网络结构设计更契合GPU的架构，使其运行起来更加高效

Darknet-53和当时其他同类网络的性能对比

Training

对全图进行训练，不进行难例挖掘（hard negative mining）等类似操作。采用多尺度训练、大量的数据增强、批量归一化等常规优化方法。

How We Do

YOLOv3在mAP方面和SSD相当（但运行速度是SSD的三倍），稍逊色于RetinaNet。

在IOU=0.5时YOLOv3的表现和RetinaNet相当，且远优于SSD，而随着IOU阈值的上升YOLOv3的表现显著下降。这表示YOLOv3能够预测出相当不错的边框，但是在和物体对齐上存在问题。

通过新的多尺度预测的方法，YOLOv3改善了过去版本中在小物体检测上的不足，但相对的在中等大小和大型物体的检测上变现有所下降。需要更多的后续研究来弄清楚其中的机理。

Things We Tried That Didn’t Work 未竟的尝试

Anchor box x, y offset predictions

使用常规的锚框定位（预测偏置）的方法，发现模型稳定性会下降

Linear x, y predictions instead of logistic

使用线性回归预测x、y，而不是逻辑回归，导致mAP下降

Focal loss

使用焦点损失（focal loss）进行评估，导致mAP下降

Dual IOU thresholds and truth assignment

Faster R-CNN在训练中使用两阶IOU阈值对预测结果做一个优、中、差的三等区分，并在计算损失时加以区分，加速参数的收敛。作者在YOLOv3中尝试了相似的策略，但没有取得更好的效果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YOLOv3论文总结

YOLOv3中创新性的使用了FPN多层上采样分别预测不同大小的物体；将骨干网络替换为了Darknet-53，使用残差块，加深backbone，提高特征提取能力。这篇文章也是作者的最后一作，行文风格比较随意，用词非常个性化
复制链接

扫一扫

m0_57131092 CSDN认证博客专家 CSDN认证企业博客

码龄3年

10: 原创

113万+: 周排名

20万+: 总排名

1万+: 访问

: 等级

118: 积分

9: 粉丝

13: 获赞

6: 评论

24: 收藏

私信

关注

热门文章

最新评论

【吴恩达课后编程作业】Course 4 - 卷积神经网络 - 第三周作业
0>1?1:0: 问题应该在K.get_value(boxes)上，它会调用一个库函数，返回x.numpy(),可能是版本不适配了，请问有替代它的函数吗？谢谢
【吴恩达课后编程作业】Course 4 - 卷积神经网络 - 第三周作业
0>1?1:0: 182-183行 if is_show_info: print("在" + str(image_file) + "中找到了" + str(len(K.get_value(boxes))) + "个锚框。") 出现AttributeError: ‘Tensor‘ object has no attribute ‘numpy‘错误。python=3.7,keras=2.3.1 怎么解决？
SpringCloud集成Nacos：Server check fail, please check server localhost ,port 9848 is available
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
【吴恩达课后编程作业】Course 4 - 卷积神经网络 - 第三周作业
m0_57131092: 模型打开失败，你的模型文件不在这个路径下
【吴恩达课后编程作业】Course 4 - 卷积神经网络 - 第三周作业
冬暇: SavedModel file does not exist at: model_data/yolov.h5/{saved_model.pbtxt|saved_model.pb} 有遇到这个错误吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。