论文解读：YOLOv3

最新推荐文章于 2024-06-12 18:14:16 发布

ZeroZone零域

最新推荐文章于 2024-06-12 18:14:16 发布

阅读量357

点赞数

分类专栏：计算机视觉文章标签： YOLO 目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ksws0292756/article/details/82695611

版权

计算机视觉专栏收录该内容

26 篇文章 15 订阅

订阅专栏

从这篇文章的写作风格可以看出，Joseph 这人是个幽默的老哥。。。

摘要

作者对YOLOv2进行了一些改进，使之在保持实时检测的同时，准确率又有所提升了。

介绍

作者说他这一年（18年）基本没干啥，就是打打电话，玩玩推特，偶尔还帮别人干点活。。

然后因为只对YOLO做了一些改进，但是并没什么特别有意思的地方，因此就写了这一篇技术报告。

The Deal

作者说他们大部分的工作都是从别人那里吸取好的点子，同时训练了一个新的分类器网络（比别人的好，恩。。）

Bounding Box Prediction

和YOLO9000一样，在预测bounding box时使用了dimension clusters和anchor boxes。

YOLOv3在预测每个bouding box的objectness score时，使用的是logistic regression。

与faster rcnn不同的是，我们的系统只会给每个gt object指派一个bounding box。如果没有指派的话，就说明没有对象的box坐标，只有objectness。

Class Prediction

每个box使用了多标签分类，我们不选择softmax是因为发现它很难取得好的效果，因此，改用一个单独的logistic classifiers。在训练阶段，使用binary cross-entropy loss来进行类别预测。

Predictions Across Scales

YOLOv3在三种不同的scales下进行预测。

Feature Extractor

作者使用了一个新的网络模型来提取特征，主要是在Darknet-19中引入了residual network stuff，最终模型的卷积层数达到53层，也就是Darknet-53。

Training

仍然使用不带hard negative mining的图片训练。同时使用了multi-scale training，data augmentation，batch normalization，以及其他的一些标准程序。

How We Do

根据不同的评价标准，YOLO的性能差异较大，总的来说主要是因为YOLO虽然能标出物体的大致位置，但是画出的框并不是“完美”，使得在IOU要求高的评价标准上，YOLO的得分很低。

另外，之前的YOLO在检测小物体上往往有很多瓶颈，而目前的YOLO已经在慢慢克服这方面的缺陷

Things We Tried That Didn’t Work

Anchor box $x,y$ offset predictions
Linear $x,y$ predictions instread of logistic
Focal loss
Dual IOU thresholds and truth assignment

What This All means

最后，作者讨论了一下为什么要选择其他的评价标准。

大意是，对于人类来讲，很难直接区分出IOU0.3和IOU0.5之间的差别，那么我们要求计算机这样做是否合理呢（我认为是合理的。。。）

后面作者说出了对计算机视觉未来发展的一些“愿景”。（作者反对隐私泄漏和军事用途）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。