【计算机视觉】TextFuseNet:具有更丰富融合特征的场景文本检测

  • 文献题目:TextFuseNet: Scene Text Detection with Richer Fused Features
  • 文献时间:2020

摘要

  • 自然场景中的任意形状文本检测是一项极具挑战性的任务。与仅基于有限特征表示来感知文本的现有文本检测方法不同,我们提出了一个新颖的框架,即 TextFuseNet,以利用融合了更丰富的特征进行文本检测。更具体地说,我们建议从三个级别的特征表示中感知文本,即字符级别、单词级别和全局级别,然后引入一种新颖的文本表示融合技术来帮助实现鲁棒的任意文本检测。多级特征表示可以通过将文本分解成单个字符来充分描述文本,同时仍然保持它们的一般语义。然后,TextFuseNet 使用多路径融合架构从不同级别收集和合并文本的特征,该架构可以有效地对齐和融合不同的表示。在实践中,我们提出的 TextFuseNet 可以学习对任意形状文本的更充分描述,抑制误报并产生更准确的检测结果。对于那些缺乏字符级注释的数据集,我们提出的框架也可以通过弱监督进行训练。几个数据集的实验表明,所提出的 TextFuseNet 实现了最先进的性能。具体来说,我们在 ICDAR2013 上实现了 94.3% 的 F 度量,在 ICDAR2015 上实现了 92.1%,在 Total-Text 上实现了 87.1%,在 CTW-1500 上实现了 86.6%。

引言

  • 场景文本检测在计算机视觉界引起了越来越多的关注。 随着深度学习的快速发展,已经取得了许多进展[Wang et al, 2019d][Wang et al, 2017][Qiao et al, 2019][Gao et al, 2019]。 然而,这项任务仍然具有挑战性,因为文本通常具有多种形状,并且文本检测器很容易受到复杂背景、不规则形状和纹理干扰等问题的影响。
  • 现有的方法主要有两种:基于字符的方法和基于词的方法。基于字符的方法将文本视为多个字符的组合。他们首先用精心设计的字符检测器提取字符,然后将它们组合成单词。然而,由于为文本检测生成大量候选字符,基于字符的方法通常非常耗时。代替基于字符的方法,已经提出了基于单词的方法来基于通用对象检测管道直接检测单词。尽管它们更简单、更有效,但这些方法通常无法有效地检测任意形状的文本。为了解决这个问题,一些基于单词的方法进一步应用于姿态分割来进行文本检测。在这些方法中,估计前景分割掩码以帮助确定各种文本形状。尽管取得了可喜的成果,但现有的基于实例分割的方法仍然存在两个主要限制。首先,这些方法仅基于单个感兴趣区域(RoI)检测文本,而不考虑全局上下文,因此它们往往会基于有限的视觉信息产生不准确的检测结果。其次,流行的方法没有对不同级别的单词语义进行建模,冒着为文本检测产生误报的风险。图 1 显示了这些方法的一个示例。
    在这里插入图片描述
  • 图 1:常用的基于实例分割的方法 (a) 和我们提出的 TextFuseNet (b) 的结果说明。 绿色多边形代表真阳性,而红色多边形代表假阳性。
  • 在本文中,我们提出了一种新颖的场景文本检测框架,即 TextFuseNet,通过利用更丰富的融合特征有效地检测任意形状的文本。一般来说,我们遵循 Mask R-CNN [He et al, 2017] 和 Mask TextSpotter [Lyu et al, 2018] 并将文本检测任务制定为实例分割任务。与这些方法不同,我们重新构建了 Mask R-CNN 的原始管道,==以实现对三个级别的特征表示的分析和融合,即字符级、单词级和全局级特征,==用于文本检测。特别是,我们首先在检测管道中引入了一个额外的语义分割分支,以帮助感知和提取全局级别的表示。全局语义特征稍后可用于指导检测管道的检测和掩码分支。接下来,我们尝试在 Mask R-CNN 管道的检测和掩码分支中提取字符级和单词级特征。与原始的 Mask R-CNN 不同,在检测和掩码分支中,我们不仅检测和分割单词实例,还检测和分割字符实例,提供字符和单词级别的表示。在感知三级表示之后,我们引入多路径特征融合架构,通过多路径融合网络融合字符、词和全局级别的特征,以方便 TextFuseNet学习更具辨别力的表示并产生更准确的文本检测结果。在实践中,考虑到一些现有的数据集缺少字符符号,我们进一步开发了一种弱监督学习方案,通过从单词级注释数据集中学习来生成字符级注释。总体而言,TextFuseNet 的架构如图 2 所示。
    在这里插入图片描述
  • 图 2:拟议框架的整体流程。 我们提取和利用三个级别的特征表示,即文本的字符级、单词级和全局级特征。 我们还提出了多路径融合架构,以获得更丰富的融合特征用于文本检测。
  • 这项工作的贡献有三方面:
    (1) 我们提出了一个新颖的框架,即 TextFuseNet,它提取了字符、单词和全局级别的特征,并引入了多路径融合架构来融合它们以进行准确的文本检测;
    (2) 基于所提出的框架,我们引入了一种弱监督学习方案,利用词级注释来指导字符训练样本的搜索,实现字符实例无注释的有效学习;
    (3) 我们提出的框架在几个包含任意形状文本的著名基准上实现了最先进的性能。

相关工作

  • 如上所述,现有方法可以大致分为两大类,即基于字符的方法和基于单词的方法。
  • 基于字符的方法通常首先应用一些复杂的字符检测器,例如 SWT、MSER 和 FAS Text,来提取候选字符。 这些字符可以通过字符/非字符分类器过滤以删除错误的候选者。 最后,根据先验知识或一些聚类/分组模型将剩余的字符分组为单词。 然而,大多数基于字符的方法都需要精心设计,涉及多个处理阶段,非常复杂并导致错误累积。 因此,基于字符的方法的性能总是耗时且次优的。
  • 基于词的方法直接检测词,主要受通用对象检测方法的启发。 [Tian et al, 2016] 提出了一个由 CNN 和 RNN 组成的 Connectionist Text Proposal Network (CTPN),通过链接一系列小文本框来检测整个文本行。 受 SSD 的启发,[Liao et al, 2018a] 通过添加多个文本框层,提出了 TextBoxes 及其扩展 TextBoxes++。 [Shi et al, 2017] 通过使用全卷积网络 (FCN) 来检测文本片段及其链接关系,提出了 SegLink。 文本段根据它们的关系链接作为最终的检测结果。 但是,这些方法只适用于横向或多向文本。
  • 为了解决具有任意形状的文本的挑战,已经提出了许多基于实例分割的方法来检测具有任意形状的文本。 [Deng et al, 2018] 通过 CNN 进行文本/非文本预测和链接预测,将正样本像素与正链接连接起来,直接得到文本框而不进行回归。 [Xie et al, 2019] 提出了一种基于 Mask R-CNN 的监督金字塔上下文网络 (SPCNet) 来定位文本区域。 [Wang et al, 2019a] 提出了一种渐进式扩展网络 (PSENet) 来检测任意形状的文本。 [Tian et al, 2019] 将像素映射到嵌入空间并引入形状感知损失,以使训练自适应地适应文本实例的各种纵横比。 与以往的工作相比,我们分析和融合了更多不同层次的特征,以获得更丰富的融合特征,有效地提高了文本检测的性能。

方法

  • 在本节中,我们将描述如何通过语义分割、检测和掩码分支提取多级特征表示,以及如何使用多路径融合架构融合它们。 同时,我们还探索了生成字符级注释的弱监督学习策略。

架构

  • 图 2 描述了 TextFuseNet 的整体架构。 在 TextFuseNet 中,我们首先提取多级特征表示,然后进行多路径融合以进行文本检测。 该框架主要由五个组件实现:作为提取多尺度特征图的主干的特征金字塔网络(FPN)、用于生成文本建议的区域建议网络(RPN)、用于利用全局语义的语义分割分支 ,用于检测单词和字符的检测分支,以及用于对单词和字符进行实例分割的掩码分支。
  • 在 TextFuseNet 中,我们首先遵循 Mask R-CNN 和 Mask TextSpotter,并采用 ResNet 作为 FPN 的主干。此外,我们使用 RPN 为后续检测和掩码分支生成文本建议。然后,为了提取多级特征表示,我们主要建议应用以下实现。首先,我们引入了一个新的语义分割分支来对输入图像进行语义分割并帮助获得全局级特征。然后,在通过预测类别和采用边界框回归来细化文本提案的检测分支中,我们提取并融合单词和全局级别的特征来检测单词和字符。这不同于现有的方法只专注于为每个提议检测单个单词或字符。对于从检测分支检测到的对象执行实例分割的掩码分支,我们提取并融合所有字符、单词和全局级别的特征以完成实例分割以及最终的文本检测任务。用于提取多级特征表示的详细网络配置在第 3.2 节中介绍。在提取了多特征之后,我们提出了一种多路径融合架构来融合不同的特征来检测任意形状的文本。多路径融合架构可以有效地对齐和合并多级特征以提供鲁棒的文本检测。多路径融合架构的实现细节在 3.3 节中描述。

多级特征表示

  • 一般来说,字符和单词级别的特征可以很容易地在检测器的检测和掩码分支中获得。 我们可以通过检测提议中出现的单词和字符来实现这一点。 此处应用 RoIAlign 来提取不同的特征并对单词和字符进行检测。
  • 然而,我们在特征提取阶段需要一个新的网络来帮助获得全局级特征。 因此,我们建议在检测器中进一步采用语义分割分支来提取全局级特征。 如图 2 所示,语义分割分支是基于 FPN 的输出构建的。 我们将所有级别的特征融合到一个统一的表示中,并对这个统一的表示进行分割,从而获得用于文本检测的全局分割结果。 在实践中,我们应用 1×1 卷积来对齐来自不同级别的特征的通道数,并将特征图的大小调整为相同的大小以供以后统一。

多路径融合架构

  • 在我们获得多级特征后,我们在检测和掩码分支中都采用多路径融合。 在检测分支中,基于从 RPN 获得的文本建议,我们提取全局和词级特征用于不同路径中的文本检测。 然后,我们融合这两种类型的特征,以单词和字符的形式进行文本检测。 请注意,我们无法在检测分支中提取和融合字符级特征,因为在执行检测之前尚未识别字符。 在实践中,给定生成的文本提案,我们使用 RoIAlign 从 FPN 的输出特征中提取 7×7 大小内的全局和词级特征。 我们通过逐元素求和来融合这些特征,并将它们输入一个 3×3 卷积层和一个 1×1 层。 最终融合的特征用于分类和边界框回归。
  • 在掩码分支中,对于每个单词级实例,我们可以在多路径融合架构中融合相应的字符级、单词级和全局级特征,以进行姿态分割。 图 3 显示了多路径融合架构的详细说明。 在所提出的架构中,我们从不同的路径中提取多级特征并将它们融合以获得更丰富的特征,以帮助学习更具辨别力的表示。
    在这里插入图片描述
  • 图 3:掩码分支中的多路径融合架构示意图。 对于一个单词提议,我们在不同的路径中融合字符级、单词级和全局级特征,以获得更丰富的融合特征。
  • 形式上,给定一个用 r i r_i ri 表示的输入词,我们首先根据它与一个字符的交集在字符区域上的比率来识别属于该单词建议的字符结果 C i C_i Ci,这意味着如果单词框完全覆盖字符,则该比率为 1,否则为 0。 我们使用 c j c_j cj 来表示字符。 那么属于单词 r i r_i ri 的字符集 C i C_i Ci 可以根据以下公式收集:
    在这里插入图片描述
  • 其中 b i b_i bi b j b_j bj 分别是单词 r i r_i ri 和字符实例 c j c_j cj 的边界框, T T T 是阈值。 在我们的实现中,我们设置 T = 0.8。
  • 由于字符的数量不是固定的,可能从零到数百,对于给定的检测词 r i r_i ri,我们将集合 C i C_i Ci 中字符的特征融合成一个统一的表示。 特别是,我们首先使用 RoIAlign 为 C i C_i Ci 中的每个字符提取大小为 14×14 的对应特征,然后通过元素求和融合这些特征图。 通过一个 3×3 的卷积层和一个 1×1 的卷积层,我们可以得到最终的字符级特征。
  • 通过进一步应用 RoIAlign 来提取词的特征和对应的全局语义特征,我们通过 element-wise summation 融合所有这三个层次的特征,并将它们输入一个 3×3 卷积层和一个 1×1 层以获得更丰富的特征。最终融合的特征用于姿态分割。 请注意,按元素求和后的 3×3 卷积层和 1×1 卷积层用于进一步弥合不同特征之间的语义差距。
  • 总体目标。 最后,我们制定了提议的 TextFuseNet 解决文本检测问题的总体目标:
    在这里插入图片描述
  • 其中 L r p n L_{rpn} Lrpn L s e g L_{seg} Lseg L d e t L_{det} Ldet L m a s k L_{mask} Lmask分别是RPN、语义分割分支、检测分支和掩码分支的损失函数。

弱监督学习

  • 由于 TextFuseNet 是为检测单词和字符而制定的,因此需要字符级别的注释来实现有效的训练。 但是,如前所述,一些现有数据集不提供字符级注释来训练 TextFuseNet。 我们没有对字符进行注释,这是一项耗时且费力的任务,而是受到弱监督学习的启发,并提出了一种基于弱监督的学习方案来帮助训练 Text FuseNet。 在所提出的方案中,我们通过使用预训练模型从弱监督数据中学习来搜索字符级训练示例。 预训练模型基于我们提出的框架在提供字符级和单词级注释的完全注释数据集上进行训练。 然后,对于一个只有词级注释的数据集 A A A,我们开发的弱监督学习的目标是通过预训练模型 M M M A A A 中搜索字符训练样本。
  • 更具体地说,我们首先将预训练模型 M M M 应用在词级标注数据集 A A A 上。对于数据集 A A A 中的每张图像,我们可以获得一组字符候选样本:
    在这里插入图片描述
  • 其中 c i c_i ci s i s_i si b i b_i bi m i m_i mi 分别表示第 i i i 个字符候选样本 r i r_i ri 的预测类别、置信度分数、边界框和掩码。 然后我们根据置信度分数阈值和弱监督词级注释过滤 R R R 中的误报样本,得到正字符样本:
    在这里插入图片描述
  • 其中 C C C 表示要检测的所有字符类别, S S S 表示用于识别正字符样本的置信度分数阈值, ( m i ∩ g i ) / m i (m_i∩g_i)/m_i (migi)/mi 表示候选字符样本 r i r_i ri 与其词级ground truth g j g_j gj 的交集重叠, T T T 是判断候选字符样本是否在词内的阈值。 由于词级标注提供的约束,置信度阈值 S S S可以设置为相对较低,这也有利于保持字符样本的多样性。 在我们的实现中, S S S T T T 分别设置为 0.1 和 0.8。 最后,识别出的正字符样本可以用作字符级注释,并与单词级注释相结合,训练出更鲁棒和准确的文本检测模型。

实验

  • 在本节中,我们在四个具有挑战性的公共基准数据集上评估 TextFuseNet 的性能:ICDAR 2013、ICDAR 2015、Total-Text 和 CTW-1500,并与之前的最先进方法进行比较。

数据集

  • SynthText 是一个综合生成的数据集,通常用于预训练文本检测模型。 该数据集由 800,000 张图像和 800 万个合成词组成,具有旋转矩形形式的词级和字符级注释。
  • ICDAR2013 是一个典型的横向文本数据集,是在 ICDAR 2013 Robust Reading Competition 的 Challenge 2 中提出的。 它包含 229 个训练图像和 233 个测试图像。 ICDAR 2013 还提供字符级和单词级注释。
  • ICDAR2015 是一个多方向文本数据集,是在 ICDAR 2015 鲁棒阅读竞赛的挑战 4 中提出的。 它侧重于附带的场景文本,包含 1000 张训练图像和 500 张测试图像。 该数据集仅提供用四边形标记的单词级注释。
  • Total-Text 是一个用于场景文本阅读的综合任意形状文本数据集。 Total-Text 包含 1255 个训练图像和 300 个测试图像。 所有图像都用单词级别的多边形注释。
  • CTW-1500 还专注于任意形状的文本阅读,包含 1000 个训练图像和 500 个测试图像。 与 Total-Text 不同的是,CTW-1500 中的注释在文本行级别与多边形标记。

实施细节

  • 我们基于 Maskrcnn 基准实现了我们的框架,所有实验均在配备 NVidia Tesla V100 (16G) 的高性能服务器上进行。该模型使用 4 个 GPU 进行训练,并使用 1 GPU 进行评估。
  • 训练。整个训练过程分为三个阶段:在 SynthText 上进行预训练,在弱监督下搜索字符训练样本,以及对真实世界数据进行微调。由于 SynthText 提供了单词和字符级别的注释,我们可以获得一个完全监督的预训练模型。在预训练之后,对于弱监督学习,我们在 ICDAR 2015、Total-Text 和 CTW-1500 上应用预训练模型来搜索其对应词级注释的字符训练样本。然后将识别出的字符样本与其原始单词级注释相结合,以在新数据集上微调预训练模型。为了更好地分析所提出的 TextFuseNet 的能力,我们采用具有两个不同深度 {50, 101} 的 ResNet 作为每个数据集的主干。此外,为了增强网络的鲁棒性,应用了多尺度训练、随机旋转和随机颜色调整等数据增强策略。
  • 采用随机梯度下降(SGD)来优化我们的框架。 权重衰减设置为 0.0001,momentum 设置为 0.9,batch size 设置为 8。在预训练阶段,我们在 SynthText 上训练模型 20 个 epoch。 前 10 个 epoch 的学习率设置为 0.01,最后 10 个 epoch 除以 10。 在微调阶段,每个数据集的训练迭代设置为 20K。 在前 10K 次迭代中,学习率设置为 0.005,其余部分除以 10。
  • 推理。 在推理过程中,测试图像的较短边被缩放到 1000,同时保持纵横比不变。 在语义分割分支中提取全局语义特征。 对于 RPN 生成的文本建议,我们选择前 1000 个建议用于检测分支。 根据获得的检测结果,我们采用 Soft NMS 来抑制冗余边界框。 然后根据抑制的检测结果执行实例分割。 我们只保留单词实例的实例分割结果作为最终的文本检测结果。

消融研究

  • 与原始的 Mask R-CNN 相比,我们引入了两个模块来提高我们提出的 TextFuseNet 中文本检测的性能。 第一个模块是进行多级特征表示(MFR)。 另一个是引入多路径特征融合架构(MFA)以获得更丰富的融合特征用于文本检测。 因此,我们对 ICDAR 2015 和 Total-Text 进行了消融研究,以评估 TextFuseNet 中的每个模块如何影响最终性能。 对于 ICDAR 2015 和 Total-Text 的每个数据集,训练了三个模型,不同模型的比较结果如表 1 所示。“基线”是指使用原始 Mark R-CNN 训练的模型。 “MFR”表示使用多级特征表示使用Mask R-CNN训练的模型,“MFR+MFA”是指完全实现TextFuseNet的模型。 本消融研究中使用的主干网络是带有 ResNet-50 的 FPN。
    在这里插入图片描述
  • 表 1:TextFuseNet 中每个模块的性能贡献。 “MFR”表示多级特征表示,而“MFA”表示多路径融合架构。 “P”、“R”和“F”分别代表 Precision、Recall 和 F-measure。
  • 如表 1 所示,仅多级特征表示就显着提高了准确率和召回率,“MFR”的最终改进在 ICDAR 2015 和 Total-Text 上都超过了 2% 的 F-measure。 此外,“MFR”和“MFA”的组合可以进一步提高性能,在 ICDAR 2015 和 Total-Text 上分别将 F-measure 提高了 4.6% 和 4.3%。 这些结果验证了多级特征表示和多路径特征融合都有助于获得更丰富的融合特征和更有利于文本检测的判别表示。

与最先进方法的比较

  • 任意形状文本检测。如上所述,CTW-1500 和 Total-Text 专注于任意形状的文本,其中水平、多向和弯曲的文本在大多数图像中同时存在。因此,我们使用这两个数据集来评估 TextFuseNet 在检测任意形状文本方面的有效性。表 2 的最后两列分别列出了 TextFuseNet 与 CTW-1500 和 Total-Text 上的一些先前方法的比较结果。请注意,FPS仅供参考,因为不同的GPU采用不同的方法。如表 2 所示,我们提出的使用单尺度推理的 TextFuseNet 在 CTW-1500 和 Total Text 上均实现了最先进的性能。具体来说,在 CTW-1500 中,以 ResNet-50 为骨干的 TextFuseNet 实现了 85.4% 的 F-measure,比目前最好的高出 1.7%。当主干是 ResNet-101 时,可以获得更引人注目的结果(F 度量:86.6%),比所有其他竞争对手至少高出 2.9%。同样,对于 Total-Text,我们的带有 ResNet-50 的 TextFuseNet 已经实现了最先进的结果,并且其 ResNet-101 版本的性能至少比其他方法高出 2.1%。上述实验结果表明,TextFuseNet 可以在任意形状的文本检测上获得最先进的性能。
    在这里插入图片描述
  • 表 2:不同数据集的评估结果。 “*”表示多尺度推理。
  • 多向文本检测。 我们还在 ICDAR 2015 上评估了 TextFuseNet 在检测多方向文本方面的有效性。我们的结果以及与以前工作的比较如表 2 的第三列所示。如表 2 所示,具有 ResNet-50 和 ResNet-101 主干的 TextFuseNet 实现了最先进的性能,它们的 F 度量分别为 90.1% 和 92.1%。 与目前最好的版本相比,我们的 ResNet-50 和 ResNet-101 版本分别优于它 2.4% 和 4.4%。 此外,据我们所知,我们提出的框架是 ICDAR 2015 上第一个 F-measure 超过 90.0% 的框架。
  • 水平文本检测。 最后,我们评估了 TextFuseNet 在 ICDAR 2013 上检测水平文本的效果。TextFuseNet 的结果以及与之前工作的比较在表 2 的第二列中给出。具有 ResNet-50 和 ResNet 101 主干的 TextFuseNet 都取得了非常出色的结果,F-measure 分别为 92.2% 和 94.3%, 胜过所有以前的作品。
  • 因此,根据 ICDAR 2013、ICDAR 2015、Total-Text 和 CTW-1500 的这些实验结果,我们提出的 TextFuseNet 实现了最先进的性能。 此外,在速度上,TextFuseNet 也可以以适当的速度进行推理,这与之前的一些方法相比具有一定的优势。 图 4 显示了一些使用 TextFuseNet 的示例。
    在这里插入图片描述
  • 图 4:TextFuseNet 在不同数据集上的示例结果。 (a) 到 (d) 的样本图像分别选自 ICDAR 2013、ICDAR 2015、Total-Text 和 CWT-1500。

结论

  • 在本文中,我们通过研究三个级别的特征,即字符级、单词级和全局级特征,提出了一种用于任意形状文本检测的新框架 TextFuseNet。 对不同层次的特征进行充分精细的探索,学习到更丰富的融合特征,有利于文本检测。 我们的实验结果表明,TextFuseNet 在检测任意形状的文本方面取得了最先进的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值