摘要
我们为YOLO提供了一系列更新!它包含一堆小设计,可以是系统的性能得到更新;也包含一个新训练的,非常好的神经网络。虽然比上一版更大一些,但是精度也提高了。不用担心,虽然体量大了,它的速度还是有保障的。在输入320×320的图片后,YOLOv3能在22毫秒内完成处理,并取得28.2mAP的成绩。它的精度和SSD相当,但速度要快上3倍。和旧版数据相比,v3版进步明显。在Titan X环境下,YOLOv3的检测精度为57.9 AP50,用时51ms;而RetinaNet的精度只有57.5 AP50,但却需要198ms,相当于YOLOv3的3.8倍。
一,引言
有时候,一年你主要只是在玩手机,你知道吗?今年我没有做很多研究。我在Twitter上花了很多时间。玩了一下GAN。去年我留下了一点点的精力[12] [1];我设法对YOLO进行了一些改进。但是诚然,没有什么比这超级有趣的了,只是一小堆(bunch)改变使它变得更好。我也帮助了其他人的做一些研究。
其实,这就是今天我要讲的内容。我们有一篇论文快截稿了,但还缺一篇关于YOLO更新内容的文章作为引用来源,我们没写,所以以下就是我们的技术报告!
关于技术报告的好处是他们不需要介绍,你们都知道我写这个的目的,对吧。所以这段“引言”可以作为你阅读的一个指引。首先我们会告诉你YOLOv3的更新情况,其次我们会展示更新的方法以及一些失败的尝试,最后就是对这轮更新的意义的总结。
二,更新
谈到YOLOv3的更新情况,其实大多数时候我们就是直接把别人的好点子拿来用了。我们还训练了一个新的,比其他网络更好的分类网络。为了方便你理解,让我们从头开始慢慢介绍。
2.1 边界框预测
在YOLO9000后,我们的系统开始用dimension clusters固定anchor box来选定边界框。神经网络回味每个边界框预测4个坐标:tx,t