YOLOv3
继续的改进;比YOLOv2的网络大,但准确率高仍旧快;320*320YOLOv3,28.2mAP,测试一张图片22ms,与SSD一样准确速度是SSD的三倍;YOLOv3的AP50为57.9(51ms),RetinaNet为57.5(198ms);
--Bounding Box预测:与YOLOv2相同;
--类预测:不使用softmax,因为有些boundingbox包括多标签(不能很好的适用其它数据集);使用独立的logistic分类器与二值交叉熵损失;
--跨尺度预测:从三个不同的特征尺度预测(类似于特征金字塔);对于COCO预测tensor为(n*n*[3*(4=1=80)])(每个尺度预测三个anchor);除了网络最后的尺度外,另外两个利用最后包含语义信息的特征Map2倍上采样所得到的Map与前面层包含较多细节信息的Map进行叠加,然后经过一系列卷积处理得到最终的检测所需的特征Map(实现的具体细节请阅读论文);bounding box priors依然由k-means聚类得到,按顺序选择前9个聚类,然后将这9类在3个不同的尺度均匀划分;COCO 数据集的9个聚类为:(10*13), (16*30),(33*23),(30*61), (62*45), (59*119), (116*90),(156*198), (373*326);
--特征提取:新网络(Darknet-53)由Darknet-19和residual网络混合而成;Darknet-53比Darknet-19更强大,比ResNet-101和ResNet-152更有效率,每个网络训练具有相同的设置(Titan X,256*256);
--训练:训练在整张图片上(无hard negative mining和其它的处理);多规模训练,batch normalization,大量的数据扩展和其它标准的东西;
实验
--实验分析(COCOs):YOLOv3在AP上SSD的变体持平,但速度是它的3倍,并且落后于一些模型;在AP50上,几乎与RetinaNet持平但远高于SSD的变体(表明YOLOv3能很好的为对象预测Boundingbox),然而在当IOU增加时,性能下降(表明不能将生成的boxes与目标完美的对齐);运用了多尺度,提高了网络对于小目标的性能,但是对于中大目标其性能不是很好(原因论文尚未分析出);
--尝试的改进但未成功:(1)Anchor box (x,y)偏置的预测;(2)Linear x,y 预测而不是logistic;(3)焦点损失:mAP降低2个百分点,可能大多数样本没有损失(没有确定);(4)双IOU阈值与truth指派;
--结论:对于这篇论文最有感触的一句话:我们有责任为我们的工作所带来的危害考虑,并思考如何去减少这些危害。作为一个计算机方面的新手,以前总是为了发论文而看论文,可是当我认真的看了一些论文时,我发现我喜欢上了这种为了验证自己的逻辑而做一系列实验的过程,直到看到这篇论文的最后一句话,才忽然明白,所谓的学术不只是这些,而是要以“造物主”的思想去赋予新事物于“灵性”。