手把手教你用深度学习做物体检测(六)：YOLOv2介绍

最新推荐文章于 2024-07-25 22:18:47 发布

weixin_30566149

最新推荐文章于 2024-07-25 22:18:47 发布

阅读量257

点赞数

文章标签：人工智能 matlab

原文链接：http://www.cnblogs.com/anai/p/11474093.html

版权

本文介绍YOLOv2在YOLOv1基础上的改进，包括引入BatchNormalization、高分辨率分类器、锚盒、维度聚类、直接位置预测、浅层纹理特征、多尺度训练及Darknet-19网络结构。YOLOv2在速度、准确度、小目标检测和不同尺度图片检测方面均有提升。

摘要由CSDN通过智能技术生成

本文接着上一篇《手把手教你用深度学习做物体检测(五)：YOLOv1介绍》文章，介绍YOLOv2在v1上的改进。有些性能度量指标术语看不懂没关系，后续会有通俗易懂的关于性能度量指标的介绍文章。

YOLOv2

论文：《 YOLO9000: Better, Faster, Stronger》

地址： https://arxiv.org/pdf/1612.08242v1.pdf

yolov2和v1的区别

引入了Batch Normalization
有一定的正则化效果，可以减轻过拟合，这样就不用使用dropout等优化方法了。BN归一化了激活函数的输入值，加快了隐藏层单元的学习速度。可以抑制covariate shift 现象对深层网络较深的层的影响(covariate shift是指训练样本和测试样本分布不同导致的训练模型在测试数据上表现不佳的问题)。
High Resolution Classifier（采用高分辨率的分类器)
这里是指在ImageNet上训练的时候就用到了448*448的分辨率(先224*224训练160个epochs，然后就调整到了448*448,再跑10个epochs)，而yolov1时采用的224*224。
Convolutional With Anchor Boxes (采用锚盒)
引入Anchor Boxes后，每个格子预测9个边界框，比v1多了，结果是准确率下降0.3%，召回率提升7%。因为可以通过进一步的工作来加强准确率，所以说改进空间提高了。
Dimension Clusters （维度聚类）
anchor boxes需要是精选的先验框，也就是说一开始的anchor boxes如果比较好，网络就更容易学到准确的预测位置。这里作者使用了k-means的方法来选择anchor boxes.需要注意的是，计算过程中作者用IOU得分代替了欧氏距离的方法，使得boxes的聚类是受IOU的影响。k值的选择，作者经过实验确定为5。
Direct location prediction
为了解决预测的边界框坐标不稳定， anchor可能预测很远处的格子(grid cell)的问题，作者利用logistic回归函数把anchor的偏移量限制在了0到1之间，使得anchor只用于预测其周围的边界框。该方法使mAP获得了5%的提升。
Fine-Grained Features(浅层纹理特征)
为了在小尺度物体检测上表现的好，作者添加了一个passthrough layer（转移层），就是把浅层纹理特征拼接到深层特征图，这波操作使得模型的性能获得了1%的提升。
Multi-Scale training （多尺度训练）因为去掉了全连接层，任意输入维度都可以在网络中运行，所以作者每10个batches就随机选择一个新的size进行输入，YOLO网络使用的降采样参数为32，即使用32的倍数进行尺度池化{32*10,32*11，…，32*19}。最终最小的尺寸为320*320，最大的尺寸为608 * 608。这种机制使得网络可以更好地预测不同尺寸的图片，意味着同一个网络可以进行不同分辨率的检测任务，在小尺寸图片上YOLOv2运行更快，在速度和精度上达到了平衡。在小尺寸图片检测中，YOLOv2的mAP堪比Faster R-CNN。在大尺寸图片检测中，YOLOv2在VOC2007 上mAP为78.6%，仍然高于平均水准。
Darknet-19
yolov2使用了Darknet-19这个新的网络结构作为特征提取部分，输入大小变为416*416。
另外，作者提出了一种可以同时在 COCO和fulll ImageNet（前9000类）数据集中进行训练的方法，训练出的模型可以实现9000种物体的实时检测(具体内容建议看原论文)。用作者的话说就是：使用这个联合训练方法，YOLO9000使用COCO的检测数据来学会找到图片中的物体，使用ImageNet中的数据来学会给这些找到的物体分类。