R2CNN 论文详解

R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

R2CNN:旋转区域CNN用于方向鲁棒性的场景文本检测(29 Jun 2017 三星中国)

声明:笔者翻译论文仅为学习研究,如有侵权请联系作者删除博文,谢谢

源论文地址:https://arxiv.org/abs/1706.09579
笔者践行代码:https://github.com/DetectionTeamUCAS/R2CNN_Faster-RCNN_Tensorflow

:文字中标粗和亮色的部分为笔者认为有创新改进余地和需要注意的地方,灰色背景部分为笔者的一些想法。因水平所限,部分笔触可能有不实和错误之处,敬请广大读者批评指正,让我们一起进步~

:本文中提到的创新点类别为笔者自己定义,1类创新点是根本性创新,指前人没有或者较为新颖的方法;2类创新点是借鉴型创新,指所用方法在相关领域或者别的模型中有所使用,嫁接而来;3类创新点是改进型创新,指更改一些关键参数以提升使用的鲁棒性。

-----------------------------------------------------------------------------------------------------------------------------------------

摘要

       本文提出了一种新的旋转区域CNN(R2CNN)检测自然场景图像中任意定向文本的方法。该框架基于Faster R-CNN[1]架构。首先,我们使用区域建议网络(RPN)生成围绕不同方向文本的水平框 。其次,对于RPN提议的每个水平框,提取不同集合大小的集合特征,利用级联特征同时预测文本/非文本分数、水平框和倾斜最小区域框。最后,采用倾斜的非极大值抑制来得到检测结果。我们的方法在文本检测基准方面取得了竞争性成果:2015年ICDAR和2013年ICDAR。

这里的水平框和倾斜最小区域框是笔者按自己的理解翻译的,原文中水平框对应 axis-aligned bounding boxes,就是四四方方正常的四点坐标框;倾斜最小区域框对应 inclined minimum area box,是那种八点坐标框,可以对方向进行预测。

1 介绍

       自然场景中的文本(如街道名牌、商店名称、名字)在我们的日常生活中扮演着重要的角色。它们携带有关环境的基本信息。理解场景文本后,可以广泛用于多个领域,比如文本检索、翻译等。理解场景文本通常有两个关键步骤:文本检测和文本识别。本文主要研究文本检测。场景文本检测具有挑战性,因为场景文本具有不同的大小、宽度、高度、宽高比、字体样式、光照、透视失真、方向等。由于定位信息对于场景文本识别和其他任务是有用的,场景文本检测不同于一般的目标检测任务,即除了水平包围框信息外,还应该对文本的方向进行预测。
       大多数以前的文本检测方法被设计用于检测水平或接近水平的文本[2,3,4,5,6,7,8,9,10,11,12,14],也有一些方法试图解决任意取向的文本检测问题[15,16,17,18,19,20,31,32,33,34]。最近,任意取向的场景文本检测是一个热门的研究领域,可以从ICDAR2015附属场景目标检测鲁棒性阅读竞赛的频繁更新结果中看出[21]。传统的文本检测方法基于滑动窗口或Connected Components (CCs)[2,3,4,6,10,13,17,18,19,20],最近广泛研究了基于深度学习的方法[7,8,9,12,15,16,31,32, 33,34]。
       本文提出了一种用于检测任意方位场景文本的旋转区域CNN(R2CNN)。它基于Faster R-CNN架构[1]。图1示出了所提出的方法的过程。

在这里插入图片描述
图1 R2CNN的过程: (a)原始输入图像;(b)由RPN生成的文本区域(平行边界框); (c )预测的平行框和倾斜最小面积框(每个斜框与平行框相关联,关联框对用相同的颜色表示);(d)倾斜非极大值抑制后的检测结果。

       图1(A)是原始输入图像。我们首先使用RPN来提出包围文本的平行边界框(图1(B))。然后我们对提议框进行分类,精简平行框。对具有不同尺寸的集合特征合并,以预测倾斜最小区域框(图1(C ))。最后,利用倾斜非极大值抑制进行检测处理候选,以获得最终检测结果 (图1(D)。我们的方法在ICDAR 2015附带文本检测基准上的F-measure 为82.54%,在ICDAR 2013聚焦文本检测基准上为 87.73%。

总结下 R2CNN 的检测过程(图1):

  1. 提取特征网络;
  2. 使用RPN生成水平框,并进行分类和精简(粗检测——只分类前景和背景);
  3. 对具有不同尺寸的集合特征合并,以预测具体目标分数、水平框以及与之关联的倾斜最小区域框;(细检测——具体类别)
  4. 采用倾斜非极大值抑制得到检测结果。

       本文的贡献如下:

  • 我们介绍了一种用于检测任意方向场景文本的新框架(图2)。它基于Faster R-CNN[1]。RPN用于提出文本区域、Fast R-CNN模型[23]修改为文本区域分类、细化和倾斜框预测。
  • 将面向任意
  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值