《R2CNN:Rotational Region CNN for Orientation Robust Scene Text Detection》论文笔记

代码地址: R2CNN

1. 概述

这篇文章提出了R2CNN模型用于去检测自然场景下任意角度旋转的文本,该模型是基于Faster R-CNN结构的。该方法首先使用RPN网络在文本区域的坐标轴方向上产生不同的默认检测框,之后对每个方向的默认检测框的特征使用不同的池化尺寸进行池化融合,最后网络使用融合的特征去预测三个结果(输出):是文本与不是文本的置信度、坐标轴方向的检测框(也就是不带角度的矩形框)与倾斜矩形框,最后经过NMS输出结果。

网络对文本图像检测流程见图1所示,首先使用RPN生成包含文本区域的proposal(图b),之后对这些proposal进行分类并优化坐标(横框),使用不同池化参数处理之后的特征预测倾斜矩形框(图c),之后经过NMS处理得到最后结果(图d)。
在这里插入图片描述
文章的主要贡献:

  • 1)在原有Faster RCNN的基础上使用RPN网络产生文本区域的proposal,修改网络的输出为文本区域分类、文本区域矩形框和文本区域倾斜矩形框;
  • 2)为了能够更好检测文本区域,使用尺寸为 7 ∗ 7 , 11 ∗ 3 , 3 ∗ 11 7*7,11*3,3*11 77,113,311的池化尺寸,在将这些池化的结果组合起来去产生回归结果;
  • 3)文章也针对本文的场景设置anchor,比如设置小的anchor检测小的文本,最后使用带有倾斜矩形框的NMS处理得到最后的结果;

2. 网络设计

文章提出的R2CNN检测算法的结构见下图所示,与Faster RCNN比较明显的区别是Pooling的尺寸不同,回归的结果由2个变为了3个。
在这里插入图片描述

2.1 旋转文本检测的形式

在ICDAR 2015中文本区域是使用顺时针方向的四个坐标点进行表示的: [ ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , ( x 4 , y 4 ) ] [(x1,y1),(x2,y2),(x3,y3),(x4,y4)] [(x1,y1),(x2,y2),(x3,y3),(x4,y4)]。文章中指出并没有采用回归anchor的方法去检测矩形框,给出说明(理由)是正负90度是很难区分的,只有理解了文本内容才能作区分,这样会给网络带来歧义。因而采用的回归方式如下图的(b)(c)图所示,使用顺时针方向的两个点 [ ( x 1 , y 1 ) , ( x 2 , y 2 ) ] [(x1,y1),(x2,y2)] [(x1,y1),(x2,y2)]与一个框的高度 h h h来表示回归的结果。
在这里插入图片描述

2.2 R2CNN部分

在图1中可以看到网络的输出结果有3个,其中中间的结果与传统的Faster RCNN的结果是一致的,这个矩形框包含了文本区域,尽管文本区域在这个矩形框中存在的角度是任意的,带有旋转的文本可以通过倾斜矩形去获取。

对RPN网络部分的修改:
文中提到小的anchor对文本区域检测具有好处,因而将原本Faster RCNN的anchor从 [ 8 , 16 , 32 ] [8,16,32] [8,16,32]调整到了 [ 4 , 8 , 16 , 32 ] [4,8,16,32] [4,8,16,32],提升了对于文本检测的性能。

不同尺寸的POIPooling尺寸:
在原始的Faster RCNN算法中RoIPooling只有 7 ∗ 7 7*7 77的尺寸,在文中为了更好适应文本区域的特点额外增加了两个池化尺寸 11 ∗ 3 , 3 ∗ 11 11*3,3*11 113,311,分辨表示对垂直方向与水平方向文本区域的适应。

网络的三个输出头:
网络的的输出有三个:是否为文本的分类、水平矩形框、倾斜矩形框。文中特意提出之所以保留水平矩形框是该回归分量对最后的结果具有积极作用,后面的实验数据对其进行了验证。

倾斜矩形框的NMS:
NMS操作是检测算法中除去无关检测框的步骤,这里在原有NMS的基础上对倾斜框也做NMS操作。

2.3 网络的损失函数

网络是源自于Faster RCNN因而存在两个阶段的loss,对于FPN网络部分的loss还是按照原来的loss计算。后面的三个输出头的损失函数定义如下:
在这里插入图片描述

3. 实验结果

算法中各个变量对于检测性能的影响:
在这里插入图片描述
上面的表是算法中各个变量变化之后的实验结果对比,验证了之前提到的水平框对倾斜矩形框检测具有辅助作用,添加小的anchor size与适应文本特性的pooling size也能够增加文章所提算法的检测性能。

文章提出的算法与其它一些方法的对比:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值