Yolo_V2算法详解及说明

最新推荐文章于 2024-06-07 01:53:59 发布

一方

最新推荐文章于 2024-06-07 01:53:59 发布

阅读量2.9k

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/qinghange/article/details/86522159

版权

一 yolo_v1缺点回顾yolo_v2是在yolo_v1的基础上改进而来，针对yolo的缺点：1.框坐标定位不准；2 与基于region proposal的方法相比召回率较低；3.对小目标/比较密集的目标检测效果不好，因为设计网络时，一个grid cell仅仅预测两个bounding box，且仅仅属于一个类别（classification score是两个bounding box共享的）；...

摘要由CSDN通过智能技术生成

一 yolo_v1缺点回顾

yolo_v2是在yolo_v1的基础上改进而来，针对yolo的缺点：1.框坐标定位不准；2 与基于region proposal的方法相比召回率较低；3.对小目标/比较密集的目标检测效果不好，因为设计网络时，一个grid cell仅仅预测两个bounding box，且仅仅属于一个类别（classification score是两个bounding box共享的）；4.对同一物体出现不常见的宽高比时，泛化能力偏弱。

而yolo_v2通过优化网络提高检测效果；大概看一下Yolo_v2的表现：YOLOv2算法在VOC 2007数据集上的表现为67 FPS时，MAP为76.8，在40FPS时，MAP为78.6. 为什么会在不同的fps下，会有不同的MAP值。

二 yolo_v2 网络优化策略---性能改进 ---better

1 high resolution classifier---训练预处理模型

现在训练classification/object detection的模型，都不会随机初始化所有参数，因为预训练模型都跑在ImageNet数据集上，一方面数据量大，另一方面训练时间久，如果自己训练，负担太大；所以现在跑classification/object detection模型，都需要fine-tuning预训练好的model，而这些预训练好的model都可以在github。

YOLO_v1直接用训练好的model来fine tuning：原来的YOLO网络在预训练的时候采用的是224*224的输入（这是因为一般预训练的分类模型都是在ImageNet数据集上进行的），然后在detection的时候采用448*448的输入，这会导致从分类模型切换到检测模型的时候，模型还要适应图像分辨率的改变；YOLOv2则将预训练分成两步：先用224*224的输入从头开始训练网络，大概160个epoch（表示将所有训练数据循环跑160次），然后再将输入调整到448*448，再训练10个epoch。注意这两步都是在ImageNet数据集上操作。最后再在检测的数据集上fine-tuning，也就是detection的时候用448*448的图像作为输入就可以顺利过渡了。作者的实验表明这样可以提高几乎4%的MAP。

2 Batch Normailization

BN（Batch Normalization）层对网络的每一层的输入做归一化，加速模型收敛，降低模型过拟合，同时还能起到一定正则化效果。原来的YOLO算法（采用的是GoogleNet网络提取特征）是没有BN层的，因此在YOLOv2中作者为每个卷积层都添加了BN层，并且不再使用droput，实验证明添加了BN层后，yolo_v2的mAP提升了2%。

3 convolution with anchor boxesYOLO

原来的YOLO是利用全连接层直接预测bounding box的坐标，而YOLOv2借鉴了Faster R-CNN的思想，引入anchor。v1使用全连接层数据进行bounding box预测（将全连接层转换为S*S*(B*5+20)维的特征），这一操作丢失较多的空间信息，导致定位不准。Faster R-CNN的方法只用卷积层与Region Proposal Network来预测Anchor Box的偏移值与置信度，而不是直接预测坐标值。作者发现通过预测偏移量而不是坐标值能够简化问题，让神经网络学习起来更容易。

为了引入anchor boxes来预测bounding boxes，首先，作者在网络中去掉全连接层/和最后一个池化层（确保输出的卷积特征图有更高的分辨率）。然后，让图片输入分辨率为416 * 416，这一步的目的是为了让后面产生的卷积特征图宽高都为奇数，这样就可以产生一个center cell。作者观察到，大物体通常占据了图像的中间位置，就可以只用中心的一个cell来预测这些物体的位置，否则就要用中间的4个cell来进行预测，这个技巧可稍稍提升效率。最后，YOLOv2使用了卷积层降采样（factor为32），使得输入卷积网络的416 * 416图片最终得到13 * 13的卷积特征图（416/32=13）。加入了anchor boxes后，可以预料到的结果是召回率上升，准确率稍稍有所下降

最低0.47元/天解锁文章

一方

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Yolo_V2算法详解及说明

一 yolo_v1缺点回顾yolo_v2是在yolo_v1的基础上改进而来，针对yolo的缺点：1.框坐标定位不准；2 与基于region proposal的方法相比召回率较低；3.对小目标/比较密集的目标检测效果不好，因为设计网络时，一个grid cell仅仅预测两个bounding box，且仅仅属于一个类别（classification score是两个bounding box共享的）；...
复制链接

扫一扫