You only look once (YOLO)V2

最新推荐文章于 2022-12-19 19:24:58 发布

塔楼

最新推荐文章于 2022-12-19 19:24:58 发布

阅读量151

点赞数

分类专栏：计算机视觉/目标跟踪/目标检测

本文链接：https://blog.csdn.net/qq_28915885/article/details/119785683

版权

计算机视觉/目标跟踪/目标检测专栏收录该内容

12 篇文章 0 订阅

订阅专栏

You only look once (YOLO)V2

yolov1中的召回率和定位精度比较低。v2的目标是在维持分类准确率的同时，主要改善recall和localization；
在每层卷积测后面添加BN层，帮助正则化该模型，同时移除dropout;
v1使用 $224\times 224$ 的图像用于训练分类网络，使用 $448\times 448$ 的图像用于训练检测模型。v2中，将分类网络放到 $448\times448$ 的ImageNet训练集上微调10epoch，这使得网络的滤波器去适应高分辨率的图像；在在检测数据集上的高分辨率图像上训练检测模型。高分辨率的分类网络可以帮助提升 $4\% mAP$ ；
使用带有anchor boxes的卷积：
- v1使用全连接层在顶层的feature map上预测bbox，v2中受Faster RCNN的启发，通过预测偏移使得网络更容易学习；
- 同时，网络缩减到 $416\times416$ ，在32网络步幅之后，特征图大小为奇数，使得图像中大的目标具有一个绝对中心点（We do this because we want an odd number of locations in our feature map so there is a single center cell. Objects, especially large objects, tend to occupy the center of the image so it’s good to have a single location right at the center to predict these objects instead of four locations that are all nearby.）；
- V1中预测生成两个bbox，最终只选择置与gt的IOU最高的那一个进行预测。V2从空间位置解耦分类机制，为每个anchor box预测class and objectness。与v1一样，objectness的预测只预测gt-bbox和proposed bbox的IOU，class prediction只预测给定一个object时类别的条件概率；
- 在使用anchor时，v2遇到了两个问题：1）anchor box的数量需要手动设计。虽然网络可以自适应学习，但是如果一开始就可以具有数据中的某种先验，网络学习和预测就会更容易。因此，此处实现针对训练集进行kmeans聚类的操作，使其自动找到这些先验。在聚类时需要注意的是：使用带有欧几里得距离的标准kmeans进行聚类时，大的bbox产生的误差多于小的bbox。但是我们的目标是需要得到更好的IOU得分，因此需要将距离度量修改为 $d (b o x, c e n t r o i d) = 1 - I O U (b o x, c e n t r o i d)$ ，最终k=5我们选择。2）第二个问题是，在早期迭代的时候模型不稳定。这主要是源于对位置(x,y)的预测导致的，v2采用预测相对于cell位置的坐标来预测bbox，这使得gt落入0到1之间，此处使用logistic activation使得网络预测落入该范围。网络预测5个bbox，坐标为 $t_x,t_y,t_w,t_h,t_o)$ 。如果cell偏离图像左上角为 $c_x,c_y)$ ，bbox的先验为 $p_w,p_h$ ，则对应的预测为： $b_x=\sigma(t_x)+c_x,b_y=\sigma(t_y)+c_y,b_w=p_we^{t_w},b_h=p_he^{t_h},Pr(object)*IOU(b,object)=\sigma(t_o)$ 。由于限制了位置预测，则参数的学习将更加稳定。
Fine-Grained Features：细粒度特征的使用。将 $26\times26$ 的特征下采样，concate到最后的 $13\times13$ 的特征图上进行检测，可以改善1%的性能；
Multi-Scale Training：多尺度训练。为了是模型在不同尺度的图像上更加鲁棒，采用多尺度训练策略。
- 每几次iteration改变网络的输入图片大小；
- 每10个batch网络随机选择新的图像大小{320, 352,…,608}，都是32的倍数；