基于角定位和区域分割的多方向场景文本检测(译文)

论文原文地址:

摘要

以往基于深度学习的场景文本检测方法大致可分为两类。第一类将场景文本视为一般对象的一种类型,遵循一般对象检测范式,通过对文本框位置的回归实现场景文本的本地化,但受到场景文本的任意性取向和大长宽比的困扰。第二部分直接分割文本区域,但主要需要复杂的后期处理。本文提出了一种将两种方法的思想结合起来的方法,避免了它们的缺点。我们提出通过定位文本框的角点和在相对位置分割文本区域来检测场景文本。在推理阶段,通过采样和分组角点生成候选框,再通过分割图对其进行评分,NMS对其进行抑制。与以往的方法相比,我们的方法可以很自然地处理长定向文本,不需要复杂的后期处理。通过对ICDAR2013、ICDAR2015、MSRA-TD500、MLT和COCO-Text的实验表明,该算法在准确率和效率上都取得了较好的或可比性的结果。基于VGG16,在ICDAR2015年F-measure达到84.3%,在MSRA-TD500上达到81.5%。

1介绍

最近,从自然中提取文本信息场景图像变得越来越流行,因为对实际应用程序(如产品)的需求不断增长搜索[4],图像检索[19],自动驾驶)。场景文本检测,旨在定位文本在自然图像在各种文本阅读中起着重要的作用系统[34、10、47、5、20、13、7、25]。


图1所示。上面一行和下面一行的图像是预测的左上角的角点和位置敏感的地图,右下角,左下侧的顺序,分别。

由于外部和内部因素,场景文本检测具有挑战性。外部因素来自环境,如噪声、模糊、遮挡等,也是干扰一般目标检测的主要问题。内部因素是由场景文本的属性和变化引起的。与一般的目标检测、场景检测相比,文本检测更为复杂,因为:1)场景文本可能存在于任意方向的自然图像中,因此边框盒也可以旋转矩形或四边形;3)由于场景文本可以是字符、单词或文本行形式,所以算法在定位边界时可能会出现混乱。

近年来,场景文本检测得到了广泛的研究[10,5,49、20,43,52、39,42],近年来随着一般对象检测和语义分割的快速发展,取得了明显的进展。在一般的对象检测和语义分割模型的基础上,进行了一些设计良好的修改以更准确地检测文本。这些场景文本检测器可以分为两个分支。第一个分支基于一般对象检测器(SSD[30]、YOLO[37]和DenseBox[18]),如textbox[27]、FCRN[14]和东[53]等,直接预测候选边界框。第二个分支基于语义分割,如[52]和[50],生成分割映射,通过后处理生成最终文本框。


图2。我们的方法的概述。在给定图像的情况下,网络通过角检测和位置敏感分割输出角点和分割图。然后通过采样和分组角点生成候选框。最后,这些候选框都是通过分割映射得到的,并被NMS所抑制。

与以往的方法不同,本文结合了对象检测和语义分割的思想,并以一种可选的方式加以应用。我们的动机主要来自两个观察:1)一个矩形可以由角点决定,而不考虑矩形的大小、纵横比或方向;2)区域分割图可以提供文本有效的位置信息。因此,我们首先检测文本区域的角点(左上角、右上角、右下角、左下角,如图1所示),而不是直接检测文本框。此外,我们预测位置敏感的分割图(如图1所示)而不是[52]和[50]中的文本/非文本图。最后对检测到的角点进行采样和分组,生成候选包围盒,通过分割信息消除不合理的框。我们提出的方法的管道如图2所示。

该方法的主要优点是:1)由于我们通过采样和分组角点来检测场景文本,因此我们的方法可以很自然地处理面向任意方向的文本;2)由于我们检测的是角点而不是文本框,我们的方法可以自动避免纵横比变化较大的问题;4)在我们的方法中,候选框的边界是由角点决定的。与从锚点([27,32])或文本区域([53,16])返回文本边界框相比,所得到的边界框更加准确,特别是对于长文本。

我们从公共基准测试中验证了我们的方法在水平、定向、长和定向文本以及多语言文本上的有效性。结果表明,该算法在精度和速度上都具有一定的优越性。具体来说,我们的方法在ICDAR2015[22]、MSRA-TD500[49]和MLT[2]上的f值分别为84:3%、81:5%和72:4%,明显优于以往的先进技术方法。此外,我们的方法在效率上也有竞争力。它每秒可以处理超过10.4个图像(512x512大小)。

本文的贡献是四倍的:(1)我们提出了一种新的场景文本检测器,它结合了对象检测和分割的思想,可以进行端到端的训练和评估。(2)基于位置敏感的ROI池[9],我们提出了一个旋转位置敏感的ROI平均池层,可以处理任意方向的提案。我们的方法在准确性和效率上都取得了较好的或有竞争力的结果。

2。相关工作

 

2.1。基于回归文本检测

基于回归的文本检测已经成为近两年来场景文本检测的主流。在一般目标检测器的基础上,提出了几种文本检测方法,并取得了长足的进展。源自SSD[30]的文本框[27]使用“长”默认框和“长”卷积过滤器来处理极端的纵横比。同样地,在[32]Ma等中,利用Faster-RCNN的体系结构[38],在RPN中加入旋转的锚点来检测任意方向的场景文本。SegLink[39]预测文本片段和它们在SSD风格网络中的链接,并将片段链接到文本框中,以处理自然场景中的长方向文本。基于密度框[18],EAST[53]直接对文本框进行退化。

我们的方法也适用于一般的目标探测器DSSD[11]。但与上述方法不同的是,我们提出了对角点位置进行定位,然后对检测到的角点进行采样和分组,生成文本框。

2.2。基于分割的文本检测

基于分割的文本检测是文本检测的另一个方向。受FCN[31]的启发,提出了利用分割图检测场景文本的方法。在[52]中,Zhang等人首先尝试用FCN从分割图中提取文本块。然后他们用MSER[34]检测这些文本块中的字符,并根据一些先验规则将字符分组为单词或文本行。在[50]中,Yao等人使用FCN来预测输入图像的三种类型的映射(文本区域、字符和链接方向)。然后进行一些后处理,利用分割图获取文本框。与以往的基于分割的文本检测方法相比,我们的方法更加简单明了。在推理阶段,我们提出的旋转位置敏感的平均ROI池层使用位置敏感分割图对候选框进行打分。

2.3。基于角点的通用对象检测

基于角点的通用对象检测是一种新的通用对象检测方法。在DeNet[45]中,Tychsen-Smith等人提出了一个角检测层和一个稀疏样本层来替代快速- rcnn两阶段模型中的RPN。在[48]中,Wang等人提出了PLN(点连接网络),它利用全卷积网络对边界框的角/中心点及其连接进行回归。然后使用角/中心点及其链接形成对象的包围盒。

我们的方法受到基于角点的对象检测方法的启发,但是有一些关键的区别。首先,我们方法的角点检测器是不同的。第二,我们使用分割图来评分候选框。第三,它可以为对象(文本)生成面向任意方向的框。

2.4。位置敏感分割

 

提出了一种基于实例的语义分割方法。在[8]中,Dai等人首先介绍了分割的相对位置,并提出了实例分割建议的InstanceFCN。在FCIS[26]中,Li等人借助位置敏感的内/外分值图,提出了一个端到端网络,用于感知实例的语义分割。我们还采用位置敏感分割图来预测文本区域。与上述方法相比,有三个关键的不同之处:1)我们用位置敏感的地面真实直接优化网络工作(详见第4.1.1节);2)我们的位置敏感地图可以同时用于预测文本区域和评分提议(详见第4.2.2节),不同于FCIS, FCIS使用两种位置敏感地图(内外);3)我们提出的旋转位置敏感的ROI平均池可以处理任意方向的提案。

3网络

该方法的网络是一个全卷积网络,具有特征提取、角检测和位置敏感分割等功能。网络架构如图3所示。给定一个图像,网络生成候选角点和分割映射。


图3。网络体系结构。该网络由主干、康纳点检测器和位置敏感分割预测器三部分组成。骨干采用DSSD[11]。Conner点探测器构建在多个特征层(粉色块)上。位置敏感的分割预测器与角点检测器共享一些特性(粉色块)。

3.1。特征提取

我们的模型的主干是改编自一个预先训练好的VGG16[41]网络,并根据以下考虑进行设计:1)场景文本的大小差异很大,所以主干必须有足够的能力处理好这个问题;2)自然景物的背景很复杂,所以特征应该包含更多的上下文。受到FPN[28]和DSSD[11]在这些问题上取得的良好性能的启发,我们采用FPN/DSSD体系结构中的主干来提取特征。

具体地说,我们将VGG16中的fc6和fc7转换为卷积层,分别命名为conv6和conv7。然后在conv7上叠加几个额外的卷积层(conv8、conv9、conv10、conv11),扩大提取特征的接收域。在那之后,DSSD[11]中提出的一些反褶积模块被用于自顶向下的路径(图3),特别是为了很好地检测不同大小的文本,我们将256通道的反褶积模块从conv11级串联到conv3 (conv10、conv9、conv8、conv7、conv4、conv3)共构建了6个反卷积模块。包括了conv11的特性,我们将这些输出特性命名为F3;F4;F7;F8;F9;F10和F11方便。最后,利用conv11和反褶积模块提取的具有更丰富特征表示的特征进行角点检测和位置敏感映射预测。

3.2。检测角点

对于给定的旋转矩形包围盒R =(x;y;w;h。)角点有4个(左上角、右上角、右下角、左下角),可以表示为二维坐标f(x1;y1);(x2);y2);(x3;y3);(x4;y4)g在顺时针方向。为了方便地检测拐角点,这里我们用一个水平方形C = (xc;yc;ss;ss)重新定义并表示一个拐角点,其中xc;yc是角点的坐标(如x1;y表示左上角)以及水平正方形的中心。ss是旋转矩形框R的短边长度。

在SSD和DSSD之后,我们使用默认框检测拐角点。不同于固态硬盘的方式或DSSD每个默认框输出分类分数和补偿相应的候选框,角点检测是更复杂的,因为可能有超过一个角落点在同一位置(如位置可以角落左下角和右上角的两个同时框)。在我们的例子中,一个默认框应该输出对应于4种角点的4个候选框的分类分数和偏移量。我们采用[11]中提出的预测模块,以卷积的方式预测两个分支的分数和偏移量。为了降低计算复杂度,将所有卷积的滤波器设置为256。对于每个单元格中有k个默认框的mxnfeature map,“score”分支和“offset”分支分别为每个默认框的每种角点输出2个分数和4个偏移量。在这里,2表示“score”分支表示该位置是否存在一个角点。总的来说,“score”分支的输出通道和“偏移”分支是kxqx2和kxqx4,其中q表示角点的类型。默认情况下,q等于4。

在训练阶段,我们遵循SSD中默认框和ground truth框的匹配策略。为了检测不同大小的场景文本,我们在多层特征上使用不同大小的默认框。表1列出了所有默认框的比例。默认框的纵横比被设置为1。

3.3。位置敏感分割

在之前的基于文本的文本检测方法[52,50]中,生成了一个分割图来表示属于文本区域的每个像素的概率。然而,由于文本区域的重叠和对文本像素的预测不准确,分数图中的文本区域往往不能相互分离。为了从分割图中获取文本框,在[52,50]中进行了复杂的后处理。

受到InstanceFCN[8]的启发,我们使用位置敏感的分割来生成文本分割映射。与以往的文本分割方法相比,产生了相对位置。详细地说,对于一个文本包围盒R,一个g x g规则网格被用来将文本包围盒分割成多个箱子(即:在2个网格中,一个文本区域可以分为4个箱子,即左上角、右上角、右下角、左下角。对于每个bin,使用分割映射来确定该映射中的像素是否属于该bin。

在统一的网络中,利用角点检测建立位置敏感分割。我们重用的特点F3,F4,F7,F8,F9,构建一些卷积模块按照剩余块角点检测的体系结构分支(图3所示)。所有的输出块是由双线性upsampling调整大小以F3的规模与规模因素设置为1、2、4、8、16。然后将具有相同比例的所有输出相加,生成更丰富的特性。我们进一步扩大了融合特性的分辨率,通过两个连续的Conv1x1-BN-ReLU-Deconv2x2块,将最后一个反褶积层的内核设置为gg,因此,最终的位置敏感的分割映射具有gx g通道和与输入图像相同的大小。在这个工作中,我们将g设为2。



图4。标记生成的角点检测和位置敏感的分割。(a)角点重新定义并表示为正方形(白色、红色、绿色、蓝色方框),边长设置为文本框R(黄色方框)的短边。(b)在(a)中对位置敏感的分割的相应的groundtruth。


4  训练和证明

4 1训练

4 1标签生成

对于输入训练示例,我们首先将ground truth中的每个文本框转换为一个矩形,该矩形覆盖文本框区域的最小区域,然后确定4个角点的相对位置。通过以下规则确定旋转矩形的相对位置:1)左上角和左下角角点的x坐标必须小于右上角和右下角角点的x坐标;2)左上角和右上角的y坐标必须小于左下角和右下角的y坐标。在此之后,原始的ground truth可以表示为一个旋转的矩形,具有相对位置的角点。为了方便起见,我们将旋转矩形R命名为fPiji 2 f1;2;3;4gg,其中Pi = (xi;yi)是左上角、右上角、右下角、左下角的旋转矩形的角点。

我们生成的标签角落点检测和位敏分割使用R角点检测,我们首先计算R和短的一面代表水平的4个角点方块如图5所示(一个)。位敏分割,我们生成pixel-wise面具的文本/非文本与R .我们首先初始化4规模相同的面具作为输入图像所有像素值设置为0。然后我们将R分为4个箱子,有一个2×2的规则网格,并将每个箱子分配给一个掩码,例如第一个掩码的左上角。之后,我们将这些容器中的所有像素值设置为1,如图5 (b)所示。

4.1.2优化

同时对角点检测和位置敏感分段进行训练。损失函数定义为:

其中Lconf和Lloc为预测置信分数的分枝的损失函数,为角点检测模块中定位的偏置分支。Lseg是位置敏感分割的损失函数。Nc是正默认框的个数,Ns是分割图中像素的个数。利用Nc和Ns对角点检测和分割的损失进行归一化处理。1和2是三个任务的平衡因子。在默认情况下,我们将1和2设置为10。

我们按照SSD的匹配策略,使用交叉熵损失训练分数分支:

其中yc是所有默认框的真实值,1表示正数,0表示负数。pc是预测的分数。考虑到正负样本之间的极端不平衡,分类均质化是必要的。我们使用[40]中提出的在线硬负挖掘来平衡训练样本,并将正负比设为1:3。

对于偏移分支,我们以RCNN[12]快速回归相对于默认框的偏移量,并以平滑的L1损耗对其进行优化:

其中yl =(4x;4y;4ss;4ss;4ss)是偏置分支的ground truth, pl = (4~x;4~y;4~ss;4~ ss)是预测的偏移量。可以用默认的box B = (xb;yb;单边带;和角点C=(xc;yc;ssc;ssc):

我们通过最小化DIC损失[33]来训练位置敏感分割:

其中ys是位置敏感分割的标签,ps是我们分割模块的预测。

4.2。推理

4.2.1抽样准备和分组

在推理阶段,由于预测的位置、短线和置信度等因素的影响,会产生许多角点。分数高(默认值大于0.5)的分数被保留。在NMS之后,基于相对位置信息生成4个角点集。

通过对预测角点的采样和分组,生成候选边界框。理论上,一个旋转的矩形可以由两个点组成,一个边垂直于由两个点组成的线段。对于一个预测点,短边是已知的,所以我们可以通过对角点集合中的两个角点进行任意采样和分组,形成一个旋转矩形,例如(左上角、右上角)、(右上角、右下角)、(右下角、右下角)和(左上角、左下角)对。

几种先验规则用于筛选不合适的对:1)不能违背相对位置关系,如左上点的x坐标必须小于右上点的x坐标(左上、右上)对;2)所构造的旋转矩形的最短边必须大于阈值(默认为5);3)对两点的短边ss1和ss2的预测必须满足:

 

4.2.2得分

 

采样和分组角点后,可以生成大量的候选边界框。受到InstanceFCN[8]和RFCN[9]的启发,我们使用位置敏感的分割映射对候选框进行评分。过程如图5所示。

为了处理旋转文本框,我们调整了[9]中位置敏感的ROI池层,并提出了旋转位置敏感的ROI平均池层。特别地,对于一个旋转的盒子,我们首先将盒子分割成g x g的箱子。然后我们为每个箱子生成一个矩形,每个箱子有最小的面积来覆盖箱子。我们在最小的矩形中遍历所有的像素,并计算在bin中所有像素的平均值。最后,通过平均g x g回收箱的平均值,得到一个旋转的包围盒的分数。具体过程如算法1所示。

分数低的候选框将被过滤掉。我们默认将阈值设为0.6。


5.1。数据集

SynthText[14]是一个综合生成的数据集,由大约80万幅合成图像组成。我们使用带有词级标签的数据集来预先训练我们的模型。

ICDAR2015是2015年健壮阅读竞赛[22]的挑战4中提出的用于场景文本检测的数据集。有1000张图片用于培训,500张图片用于测试,标注为word级别的四边形。

ICDAR2013是2013年健壮阅读大赛挑战2中提出的数据集,[23]关注的是场景中的水平文本。它包含229张训练用的图像和233张测试用的图像。

MSRA-TD500[49]是一个用于检测任意方向的长文本行的数据集。它包含300个训练图像和200个文本行级注释的测试图像。

MLT是针对ICDAR2017比赛[2]提出的数据集,重点关注场景文本的多面向、多脚本和多语言方面。由培训图片7200张,验证图片2000张,测试图片9000张组成。

COCO- text[46]是一种大型场景文本数据集,来源于MSCOCO数据集[29]。有63686个图片被标注,两个版本的标注和分割(V1.1和V1.4)由官方发布。之前的方法都在V1.1上进行评估,新的v1.4在ICDAR2017比赛[1]上使用。

5.2。实现细节

训练我们的模型是预先训练合成文本,然后在其他数据集上完善(COCO-Text除外)。我们使用亚当[24]来优化模型的学习速率固定1 e

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值