You only look once (YOLO)V2

You only look once (YOLO)V2

  • yolov1中的召回率和定位精度比较低。v2的目标是在维持分类准确率的同时,主要改善recall和localization;
  • 在每层卷积测后面添加BN层,帮助正则化该模型,同时移除dropout;
  • v1使用 224 × 224 224\times 224 224×224的图像用于训练分类网络,使用 448 × 448 448\times 448 448×448的图像用于训练检测模型。v2中,将分类网络放到 448 × 448 448\times448 448×448的ImageNet训练集上微调10epoch,这使得网络的滤波器去适应高分辨率的图像;在在检测数据集上的高分辨率图像上训练检测模型。高分辨率的分类网络可以帮助提升 4 % m A P 4\% mAP 4%mAP
  • 使用带有anchor boxes的卷积:
    • v1使用全连接层在顶层的feature map上预测bbox,v2中受Faster RCNN的启发,通过预测偏移使得网络更容易学习;
    • 同时,网络缩减到 416 × 416 416\times416 416×416,在32网络步幅之后,特征图大小为奇数,使得图像中大的目标具有一个绝对中心点(We do this because we want an odd number of locations in our feature map so there is a single center cell. Objects, especially large objects, tend to occupy the center of the image so it’s good to have a single location right at the center to predict these objects instead of four locations that are all nearby.);
    • V1中预测生成两个bbox,最终只选择置与gt的IOU最高的那一个进行预测。V2从空间位置解耦分类机制,为每个anchor box预测class and objectness。与v1一样,objectness的预测只预测gt-bbox和proposed bbox的IOU,class prediction只预测给定一个object时类别的条件概率;
    • 在使用anchor时,v2遇到了两个问题:1)anchor box的数量需要手动设计。虽然网络可以自适应学习,但是如果一开始就可以具有数据中的某种先验,网络学习和预测就会更容易。因此,此处实现针对训练集进行kmeans聚类的操作,使其自动找到这些先验。在聚类时需要注意的是:使用带有欧几里得距离的标准kmeans进行聚类时,大的bbox产生的误差多于小的bbox。但是我们的目标是需要得到更好的IOU得分,因此需要将距离度量修改为 d ( b o x , c e n t r o i d ) = 1 − I O U ( b o x , c e n t r o i d ) d(box,centroid)=1-IOU(box,centroid) d(box,centroid)=1IOU(box,centroid),最终k=5我们选择。2)第二个问题是,在早期迭代的时候模型不稳定。这主要是源于对位置(x,y)的预测导致的,v2采用预测相对于cell位置的坐标来预测bbox,这使得gt落入0到1之间,此处使用logistic activation使得网络预测落入该范围。网络预测5个bbox,坐标为 ( t x , t y , t w , t h , t o ) (t_x,t_y,t_w,t_h,t_o) (tx,ty,tw,th,to)。如果cell偏离图像左上角为 ( c x , c y ) (c_x,c_y) (cx,cy),bbox的先验为 p w , p h p_w,p_h pw,ph,则对应的预测为: b x = σ ( t x ) + c x , b y = σ ( t y ) + c y , b w = p w e t w , b h = p h e t h , P r ( o b j e c t ) ∗ I O U ( b , o b j e c t ) = σ ( t o ) b_x=\sigma(t_x)+c_x,b_y=\sigma(t_y)+c_y,b_w=p_we^{t_w},b_h=p_he^{t_h},Pr(object)*IOU(b,object)=\sigma(t_o) bx=σ(tx)+cx,by=σ(ty)+cy,bw=pwetw,bh=pheth,Pr(object)IOU(b,object)=σ(to)。由于限制了位置预测,则参数的学习将更加稳定。
  • Fine-Grained Features:细粒度特征的使用。将 26 × 26 26\times26 26×26的特征下采样,concate到最后的 13 × 13 13\times13 13×13的特征图上进行检测,可以改善1%的性能;
  • Multi-Scale Training:多尺度训练。为了是模型在不同尺度的图像上更加鲁棒,采用多尺度训练策略。
    • 每几次iteration改变网络的输入图片大小;
    • 每10个batch网络随机选择新的图像大小{320, 352,…,608},都是32的倍数;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值