A Deep-Learning Approach for Parking Slot Detection on Surround-View Images

论文翻译
链接:https://pan.baidu.com/s/1q7Zh4Dm2KZkCfd08revs3w
提取码:keqe
下面介绍一些关于这篇文章的一些细节

概述

这篇文章主要是基于faster-rcnn来进行停车位的识别与检测。而我们知道,在汽车进行转向的时候,由鱼眼相机拼接后的图片里的停车位的方向不再是规则的四边形(矩形、正方形),因此如果直接用检测网络去检测的话,最后即使输出了停车位的位置,输出的目标位置的精度肯定是不能满足自动泊车的要求的,因此作者在faster-rcnn大的基础上进行了改进,主要包括以下几点:
1、基于anchor-free的思想,而不是anchor-base的思想,以输出不规则的四边形
2、采用fpn的基础网络,修改了fpn中金字塔的数目(具体在下面讲解)

文章anchor-free的思想

文章中作者说这个想法是受一篇文本检测的文章得启发,文末会给出这篇文章的名字。对于faster-rcnn的rpn网络,会以滑动窗口的形式在原图上形成anchors,这些anchors的形状都是规则的四边形,因此通过最小化偏移误差的形式更新rpn的输出参数,但是本文作者并没有采用这种方法,而是借鉴了下图这个方法:
在这里插入图片描述
上图的意思就是,对于特征图上的一点,总是对应于原图中的一点,而不是一系列anchors,也就是a图中的红点对应于b图中的红点,而他这里的位置偏移系数是按下面这种方法计算:
在这里插入图片描述
其中,gi是gt的四个顶点的坐标,r是原图中红点的坐标。
文中还说为了不产生歧义,对于图片的标注要统一按照顺时针的方式标注。我的理解就是如果每个标注的图像都是按照同样的顺序标注,那么在最小化损失函数进行更新参数的时候,模型更加的稳定,如果每个目标的都是按照不同先后顺序标注的话,对于网络来说它还要去学习这些不同标注方式的顺序(我这里有点说不清楚。。。)

fpn的改动

在fpn中,实在p2、p3、p4、p5中的每层都要输入进rpn网络,而作者这里只将上采样后最分辨率最高的特征图输入进了rpn网络:在环绕视图图像的停车槽检测中,我们可以推测盒子的大小或多或少是恒定的,使得多尺度方法变得多余。

其他的其实没有太多的注意!

最后给出前面说的论文:《An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches》

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值