论文小结:基于旋转思想的RRPN网络介绍

1 简介

       该论文的主要工作有:①提出了一种与基于分割方法不同的文本检测方法,该方法是基于区域提取的方法,同时将RRoI(Rotation Region-of-Interest)和旋转兴趣区域学习相结合。保证了文本检测过程中的效率;②提出了一种新的任意旋转文本区域优化的策略,从而优化了旋转文本的检测性能;③该方法在MSRA-TD500,ICDAR2013和ICDAR2015中比之前的方法更精准更高效。(论文地址:https://arxiv.org/abs/1703.01086

2 探究方法

 2.1 整体架构

 2.2  旋转边界框的表达

       文本标注使用(𝑥,𝑦,h,𝑤,𝜃)进行表示,坐标(𝑥,𝑦)代表标注框的几何中心,高度hh代表标注框的短边,宽度𝑤代表标注框的长边,角度𝜃是边界框的长边沿𝑥轴旋转的正向角度,这个角度的范围是[-π/4, 3π/4),使用这样的五个变量进行表示具有3个好处:①能够比较容易计算出两个旋转的角度差异;②相较于传统上对于边界框使用8个点的表达,使用这样的方式更能很好回归带有旋转的目标检测框情形;③使用这样的表达能够高效计算经过旋转之后训练图片的ground truth。在取得每个批次的训练数据的时候对原始数据进行旋转变换,即使输入的数据是水平无旋转角度的扔进去训练亦可行。

  2.3 旋转的锚点

       由于实际检测场景的复杂性,这里使用带有旋转角度的三维度变量锚点而非原有两维度变量锚点,使用了6个不同的角度来控制目标疑似区域的提取(-π/6,0,π/6, π/3, π/2, 2π/3),长宽比例采用3组(1:2, 1:5, 1:8),尺度上也取3组(8, 16, 32),这样就组合生成了6×3×3=54个5维度(𝑥,𝑦,h,𝑤,𝜃)的锚点。对于宽高为𝑊×𝐻的特征图会产生数目为𝑊×𝐻×54的锚点。

 2.4 兴趣区域的学习

       RPN网络需要在现有的锚点基础上进行学习,这一点与传统的Faster R-CNN单靠IoU进行判别不同,这里的正负样本区域提取的划定准则为:①正样本的情形:与GT框的IoU大于0.7,同时与GT框的角度夹角小于π/12;②负样本的情形:与GT框的IoU小于0.3,或是与GT框的IoU大于0.7但是与GT框的角度夹角大于π/12 。这里使用的损失函数定义为如下的形式:

       对于分类损失定义为: 

       对于边界框的回归定义为:

        那么在2.3中为什么只选用6组锚点角度?在2.2中固定了旋转的表达范围是[-π/4, 3π/4),然后在正负样本判别的时候给了π/12的裕度范围,所以这样划分就形成了这样的6组角度。

       左图c中可以看出同目标区域经过回归之后的角度朝向是一致的。在左图c中可以看出同目标区域经过回归之后的角度朝向是一致的。

       为了证明能够从特征图中训练拟合角度,右图展示了不同训练轮数的特征图的对比,小的白短线是对锚点有较高响应的部分。

 2.5 区域提取网络的优化

       斜交情况下IoU的计算: 传统情况下参与计算IoU的矩形框都是水平的,但是这样的假设在本场景中是不成立的,因而提出了一种计算斜交矩形交叠面积的方法,其方法见算法1,方法的示意图见右图,在右图中将交叠区域,使用绿色的虚线划分为了多个三角形,通过计算这些三角形面积的和,从而得到交叠区域的面积。

 2.6 RRoI池化层

       这里提出RRoI Pooling是为了避免使用传统的RoI Pooling带来的损失,因为需要检测的目标是带有角度的了,所以需要对应的RRoI Pooling。其原理见下图所示,是将文本区域按照文本的方向划分为等分的格子(a图),在将这些格子中的数据映射到最后的结果中(b图)。RRoI Pooling的算法流程见算法2所示。

3 实验

       MSRA-TD500的注释更倾向于标记整个文本行的区域。因此,文本行的长度没有固定的范围,有时非常长。然而由于R锚固定的比率且可能不足以覆盖所有的长度,会导致单个文本区域的几个短边界框结果。为了解决这个超长的文本行问题,通过将多个短检测段链接到一个更精细的提议中,结合了后处理步骤,如算法3中所述。

 

 4 小结

      该工作的创新点:生成带文字角度信息的倾斜的区域。①RRPN(Rotation Region Proposal Networks):生成带角度信息的角度,从而生成任意方向的区域;②RRoI(Rotation Region-of-Interest)pooling layer:将任意方向的区域映射到特征图上,再进行最大池化。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值