EAST: An Efficient and Accurate Scene Text Detector翻译

Abstract

用于场景文本检测的先前方法已经在各种基准测试中获得了良好的性能。然而,在处理具有挑战性的场景时,即使配备了深度神经网络模型,它们通常也会达不到很好性能,因为整体性能取决于管道中多个阶段和组件的相互作用。在这项工作中,我们提出了一个简单而强大的管道,可以在自然场景中产生快速准确的文本检测。算法流程直接预测完整图像中任意方向和四边形形状的单词或文本行,消除了使用单个神经网络的不必要的中间步骤(例如,候选聚合和字分区)。我们的算法流程非常简单,可以集中精力设计损耗函数和神经网络架构。在标准数据集(包括ICDAR 2015,COCO-Text和MSRA-TD500)的实验表明,所提出的算法在准确性和效率方面明显优于最先进的方法。在ICDAR 2015数据集上,所提出的算法在720p分辨率下以13.2fps达到0.7820的F-score。

1. Introduction

最近,提取和理解自然场景中包含的文本信息变得越来越重要和受欢迎,ICDAR系列竞赛的前所未有的大量参与者[30,16,15]和NIST推出的TRAIT 2016评估证明了这一点。[1]。
文本检测作为后续过程的先决条件,在文本信息提取和理解的整个过程中起着至关重要的作用。先前的文本检测方法[2,33,12,7,48]已经在该领域的各种基准上获得了有希望的表现。文本检测的核心是区分文本和背景的功能设计。传统上,特征是手动设计[5,25,40,10,26,45]来捕捉场景文本的属性,而在深度学习中,是基于方法[3,13,11,12,7,48]直接从训练数据中学习有效特征。
然而,现有的方法,无论是传统方法还是基于深度神经网络,主要由若干阶段和组件组成,这些方法和组件可能是次优的和耗时的。因此,这些方法的准确性和效率仍远远不能令人满意。
在本文中,我们提出了一个快速准确的场景文本检测管道,它只有两个阶段。该算法流程使用全卷积网络(FCN)模型直接生成单词或文本行级别预测,剔除冗余和慢速中间步骤。生成的文本预测(可以是旋转的矩形或四边形)被送到非最大抑制算法中以产生最终结果。根据标准基准的定性和定量实验,与现有方法相比,该算法实现了显着增强的性能,同时运行速度更快。具体而言,所提出的算法在ICDAR 2015 [15](在多尺度下测试时为0.8072),在MSRA-TD500 [40]上为0.7608,在COCO-Text上为0.3945 [36]时,得分为0.7820,优于之前的状态 - 性能最先进的算法,同时平均花费的时间少得多(在Titan-X GPU上,对于我们最好的模型,在720p分辨率下为13.2fps,对于我们最快的模型,为16.8fps)。
这项工作的贡献有三方面:

  1. 我们提出了一种场景文本检测方法,包括两个阶段:完全卷积网络和NMS合并阶段。 FCN直接生成文本区域,不包括冗余和耗时的中间步骤。
  2. 算法可以灵活地生成字级或线级预测,其几何形状可以是旋转框或四边形,具体取决于具体应用。
  3. 所提出的算法在精度和速度方面明显优于最先进的方法。
    在这里插入图片描述

2. Related Work

场景文本检测和识别已经成为计算机视觉领域长期研究的热点。 已经研究了许多鼓舞人心的想法和有效的方法[5,25,26,24,27,37,11,12,7,41,42,31]。 综合评论和详细分析可以在调查论文中找到[50,35,43]。本节将重点介绍与所提算法最相关的工作。
传统方法依赖于手动设计的特征。基于行程宽度变换(SWT)[5]和最大稳定极值区域(MSER)[25,26]的方法通常通过边缘检测或极值区域提取来寻找候选字符。张等人, [47]利用文本的局部对称性,并为文本区域检测设计了各种特征。FASText [2]是一种快速文本检测系统,它可以调整和修改众所周知的FAST关键点检测器,用于笔画提取。然而,就精度和适应性而言,这些方法落后于基于深度神经网络的方法,尤其是在处理具有挑战性的场景时,例如低分辨率和几何失真。
最近,场景文本检测领域进入了一个新的时代,基于深度神经网络的算法[11,1348,7]逐渐成为主流。黄等人, [11]首先找到使用MSER的候选框,然后使用深度卷积网作为强分类器来修剪误报。Jaderberg等人的方法。 [13]以滑动窗口的方式扫描图像,并使用卷积神经网络模型为每个尺度生成密集的热图。后来,Jaderberg等人。 [12]同时使用CNN和ACF来搜索候选词,并使用回归进一步细化它们。田等人, [34]开发了垂直锚并构建了CNN-RNN联合模型来检测水平文本行。与这些方法不同,张等人。 [48]建议利用FCN [23]进行热图生成,并使用分量投影进行方向估计。这些方法在标准基准测试中获得了优异的性能 然而,如图2(a-d)所示,它们主要由多个阶段和组件组成,例如通过后置滤波的假阳性去除,候选聚合,线形成和字分区。 多个阶段和组件可能需要进行详尽的调整,从而导致次优性能,并增加整个流水线的处理时间。

3. Methodology

该算法的关键组成部分是神经网络模型,该模型经过训练可直接预测文本实例的存在及其几何形状的完整图像。该模型是一个全卷积的神经网络,适用于文本检测,输出密集的每像素预测的单词或文本行。这消除了候选提案,文本区域形成和字分区等中间步骤。 后处理步骤仅包括预测几何形状的阈值和NMS。 探测器被命名为EAST,因为它是一个高效精确的场景文本检测流程。

3.1. Pipeline

我们的算法的高级概述如图2(e)所示。 该算法遵循DenseBox [9]的一般设计,其中图像送入到FCN,并且生成多个像素级文本得分图和几何通道。
在这里插入图片描述预测通道之一是得分图,其像素值在[0,1]的范围内。 其余通道表示从每个像素的视图中包围该单词的几何。 分数代表在相同位置预测的几何形状的置信度。

我们已经为文本区域,旋转框(RBOX)和四边形(QUAD)实验了两种几何形状,并为每种几何设计了不同的损失函数。 然后将阈值处理应用于每个预测区域,其中得分超过预定阈值的几何被认为是有效的并且被保存用于稍后的非最大抑制。 NMS之后的结果被认为是管道的最终输出。

3.2. Network Design

在设计用于文本检测的神经网络时必须考虑几个因素。由于字区域的大小(如图5所示)变化很大,因此确定大字的存在需要来自神经网络后期的特征,而预测包含小字区域的精确几何需要早期阶段的低级信息。因此,网络必须使用不同级别的功能来满足这些要求。HyperNet [19]在特征映射上满足这些条件,但在大特征映射上合并大量通道会显着增加后续阶段的计算开销。

为了解决这个问题,我们采用U形[29]的思想逐步合并特征图,同时保持上采样分支较小。我们一起最终得到的网络既可以利用不同级别的功能,又可以保持较低的计算成本。

我们模型的示意图如图3所示。模型可以分解为三个部分:特征提取器,特征合并分支和输出层。
主干网络是在ImageNet [4]数据集上预训练的卷积网络,具有交错卷积和池化层。四个大小级别的特征图,分别是输入的 1 32 \frac{1}{32} 321, 1 16 \frac{1}{16}

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值