RRPN 论文详解

Arbitrary-Oriented Scene Text Detection via Rotation Proposals

通过旋转方案进行任意方向的场景文本检测(18年3月 XXCV)

声明:笔者翻译论文仅为学习研究,如有侵权请联系作者删除博文,谢谢

源论文地址:https://arxiv.org/pdf/1703.01086.pdf

VOC数据集到RRPN所需数据格式转换脚本

:文字中标粗和亮色的部分为笔者认为有创新改进余地和需要注意的地方,灰色背景部分为笔者的一些想法。因水平所限,部分笔触可能有不实和错误之处,敬请广大读者批评指正,让我们一起进步~

:本文中提到的创新点类别为笔者自己定义,1类创新点是根本性创新,指前人没有或者较为新颖的方法;2类创新点是借鉴型创新,指所用方法在相关领域或者别的模型中有所使用,嫁接而来;3类创新点是改进型创新,指更改一些关键参数以提升使用的鲁棒性。

-----------------------------------------------------------------------------------------------------------------------------------------

摘要

       本文介绍了一种基于旋转的自然场景图像任意文本检测框架。提出了一种基于文本倾斜角信息的旋转区域建议网络(RRPN)。然后对角度信息进行调整,进行边框回归,使 proposals 在方向上更准确地融入文本区域。提出了旋转感兴趣区域池化层(RRoI),为文本区域分类器的特征图设计一个任意方向的方案。整个框架建立在基于区域的体系结构上,与以往的文本检测系统相比,保证了任意方向文本检测的计算效率。我们在三个真实场景文本检测数据集上使用基于旋转的框架进行了实验,并证明了它在有效性和效率方面优于以前的方法。

索引词:场景文本检测,任意定向,旋转建议。

1 介绍

       文本检测的目的是识别给定图像的文本区域,是许多多媒体任务的重要前提,如视觉分类[1]、[2]、视频分析[3]、[4]和移动应用[5]。虽然有一些商业光学字符识别(OCR)系统用于记录文本或互联网内容,但由于光线不均匀、模糊、透视失真、方向等复杂情况,在自然场景图像中检测文本是一个挑战。
       近年来,文本检测任务(如[6]-[16])得到了广泛的关注。尽管这些方法已经显示出有希望的结果,但是它们大多数依赖于水平或接近水平的注释并返回水平区域的检测。然而,在实际应用程序中,大量文本区域不是水平的,即使应用非水平对齐的文本行作为水平建议也可能不准确。因此,针对水平的方法不能在实践中得到广泛应用。
       近年来,针对任意文本检测[17]-[19]提出了一些研究工作。一般来说,这些方法主要包括两个步骤,即:例如,全卷积网络(FCN)等分割网络用于生成文本预测maps,倾斜建议则使用几何方法。然而,前面的分割通常是耗时的。此外,有些系统需要几个后处理步骤来产生具有所需方向的最终文本区域建议,因此不如直接基于检测网络的系统效率高。

在这里插入图片描述

       在本文中,我们开发了一个基于旋转的方法和一个端到端的文本检测系统来进行任意方向的文本检测。特别地,方向被合并,以便检测系统能产生任意方向的建议。图1展示了以前的基于水平的方法和我们的方法之间的比较。提出了一种基于文本倾斜角信息的旋转区域建议网络(RRPN)。然后调整角度信息进行边框回归,使建议更准确地适合文本区域。提出了旋转感兴趣区域(RRoI)汇聚层,将任意方向的方案映射到特征图。最后,利用两层网络将区域划分为文本区域和背景区域。本文的主要贡献包括:

  • 与之前的基于分割的框架不同,我们的框架能够使用基于region proposal的方法来预测文本行的方向;因此,该方案能更好
  • 8
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 13
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值