【论文解读】【论文翻译】【文字检测】TextFuseNet_textfusenet: scene text detection with richer fuse-CSDN博客

本文链接：https://blog.csdn.net/lz867422770/article/details/109170271

TextFuseNet: Scene Text Detection with Richer Fused Features

作者：

三个分支：

第一个分支全局语义分割信息

第二个分支检测目标：word+character

第三个分支进行实例分割：word+character

思路：

借鉴了maskTextspotter和maskRCNN的思想，并进行了融合

论文翻译：

Abstract

自然场景中的任意形状文本检测是一项极具挑战性的任务。与现有的仅基于有限特征表示感知文本的文本检测方法不同，我们提出了一个新颖的框架TextFuseNet，以利用融合的丰富特征进行文本检测。更具体地说，我们建议从特征表示的三个级别（即字符，单词和全局级别）感知文本，然后引入一种新颖的文本表示融合技术，以帮助实现鲁棒的任意文本检测。多级特征表示可以通过将文本分解为单个字符来充分描述文本，同时仍保持其一般语义。然后，TextFuseNet使用多路径融合体系结构从各个级别收集并合并文本的特征，该体系结构可以有效地对齐和融合不同的表示形式。在实践中，我们提出的TextFuseNet可以学习对任意形状文本的更充分的描述，从而抑制误报并产生更多准确的检测结果。对于缺少字符级注释的那些数据集，我们提出的框架也可以在缺乏监督的情况下进行训练。对多个数据集的实验表明，提出的TextFuseNet实现了最新的性能。具体而言，我们分别在ICDAR2013上达到了94.3％，在ICDAR2015上达到了92.1％，在Total-Text上达到了87.1％，在CTW-1500上达到了86.6％的F量度。

1 Introduction

场景文本检测在计算机视觉中越来越收到关注，然而这个任务还存在一些挑战，因为文本通常具有多种形状，并且文本检测器很容易受到诸如复杂背景，不规则形状和纹理干扰之类的问题的影响。

现有的方法主要有两种类型，基于字符的方法和基于单词的方法。基于字符的方法将文本区域视作多个字符的结合。他们首先提取具有精心设计的字符检测器的字符，然后将它们分组为单词。但是，基于字符的方法通常很耗时，因为生成大量用于文本检测的候选字符。代替基于字符的方法，已经提出了基于单词的方法以基于通用对象检测管线直接检测单词。尽管它们更简单，更有效，但是这些方法通常无法有效地检测具有任意形状的文本。为了解决这个问题，一些基于单词的方法进一步将实例分割应用于文本检测。在这些方法中，前景分割用来帮助决定多种文本形状。尽管取得了令人鼓舞的结果，但现有的基于实例分割的方法仍存在两个主要限制。首先，这些方法仅基于单个感兴趣区域（RoI）来检测文本，而没有考虑全局上下文，因此它们往往会基于有限的视觉信息而产生不准确的检测结果。其次，流行的方法没有对单词语义的不同级别进行建模，从而冒着为文本检测产生误报的风险。图1展示出这些方法的例子。

在这篇文章中，我们提出了一个创新的文本检测框架，叫做TextFuseNet，利用丰富的融合特征有效检测任意形状。总的来说，我们参考了Mask R-CNN和Mask TextSpotter来将文本检测任务视作实例分割任务。不同的是，我们重新构建了Mask R-CNN的pipeline来分析和融合三个级别的特征：字符级别、单词级别、全局级别，以此进行文本检测。特别是，我们首先在检测pipeline中引入了另一个语义分割分支，以帮助感知和提取全局级别的表示。全局语义特征之后将被用来引导检测框架的检测分支和mask分支。接下来，我们尝试在Mask R-CNN的pipeline中的检测和Mask分支中提取字符和单词级别的特征。于原始的MASK-RCNN不同的是，在检测分支和mask分支中，我们不仅检测和分割单词实例，也检测分割字符实例，交付字符级别和单词级别的文本表示。在获取了三层特征表示之后，我们提出了多路径特征融合体系结构，该体系结构通过多路径融合网络融合了字符，单词和全局层的特征，以促进TextFuseNet的学习更具歧视性的表述，并产生更准确的文本检测结果。在实践中，考虑到一些现有的数据集缺少字符注释，我们进一步开发了一种弱监督学习方案，通过从单词级注释数据集中学习来生成字符级注释。总体而言，TextFuseNet的体系结构如图2所示。

本文的主要贡献有三部分：1）我们提出了一个新颖的框架TextFuseNet，该框架提取字符，单词和全局级别的特征，并引入多路径融合体系结构以融合它们以进行准确的文本检测；2）在此框架的基础上，我们引入了一种弱监督学习方案，该方案利用词级注释来指导字符训练样本的搜索，从而实现对字符实例不使用注释的有效学习；3）我们提出的框架在包含任意形状文本的几个开源数据集上实现了最先进的性能。

2 Related Work

3 Methodology

在这个部分，我们描述如何通过语义分割，检测和mask分支来提取多级别特征表示，以及如何使用多路径融合架构来融合它们。同时，我们也探索了通用的字符级别标注的弱监督学习机制。

3.1 Framework

图2展示了TextFuseNet的整体架构图。在TextFuseNet图中，我们首先提取多级特征表示，然后执行多路径融合以进行文本检测。这个框架主要通过5个部分来实现：一个FPN做backbone用来提取多尺度特征图；一个RPN来生成文本候选区域；一个语义分割分支来获取全局特征；一个检测分支来检测单词和字符；一个mask分支来进行单词和字符的实例分割。

在TextFuseNet中，我们首先遵循Mask R-CNN和MaskTextSpotter，并使用ResNet作为FPN的backbone。同时，我们使用RPN来为后续的检测和mask分支生成文本候选区域。为了提取多级别特征表示，我们主要通过以下方式实现。首先，我们提出一个新的语义分割分支来构造语义分割信息来获取输入图片的全局特征。然后，使用检测分支提取预测类别并回归bbox来获取文本候选区域，我们踢球并融合单词级别和全局级别的特征来检测单词和字符。这与现有的候选bbox只检测单词或只检测字符的方法不同。对于从检测分支获得的对象执行实例分割任务的mask分支，我们提取并融合所有的字符、单词和全局级别的功能以完成实例分割以及最终的文本检测任务。在3.2节中介绍了用于提取多级特征表示的详细网络配置。提取多特征后，我们提出了一种多路径融合架构来融合不同特征以检测具有任意形状的文本。多路径融合体系结构可以有效地对齐和合并多级功能，以提供可靠的文本检测。多路径融合架构的实现细节在第3.3节中进行了描述。

3.2 Multi-level Feature Representation

一般来说，字符级别、单词级别的特征能够从检测器的检测分支和mask分支轻松获得。我们能够从检测器的候选bbox中检测单词和字符。RoIAlign能够提取不同特征并能同时表达单词和字符级别的检测。

然而，我们需要一个创新的网络在特征提取阶段帮助获得全局级别的特征。因此，我们进一步在检测器中采用语义分割分支以提取全局级特征。如图2所示，语义分割分支是基于FPN的输出构造的。我们将所有级别的特征融合到一个统一的表示中，并使用这个表示来代表分割信息，从而获得用于文本检测的全局分割结果。在实际中，我们应用1*1的卷积来对齐来自不同级别的特征的通道数，并将特征图的大小调整为相同的大小，以便后续统一处理。

3.3 Multi-path Fusion Architecture

在获得多级特征之后，我们在检测分支和mask分支中均使用多路特征融合。在检测分支，基于从RPN获得的候选文本框，我们提取全局的和单词级别的特征以在不同路径进行文本检测。之后我们融合两种类型的特征融合在一起，以单词和字符的形式提供检测文本。值得注意的是，我们不能在检测分支提取和融合字符级别的特征，因为字符在执行检测之前还未被识别。实际上，给定一个生成的文本候选框，我们使用RoIAlign来获取全局和单词级别的特征，固定为一个尺寸为7*7的FPN输出特征。我们通过逐个元素求和并送入3*3和1*1的卷积层来融合这些特征。最终的融合特征将会用于分类和bbox回归。

然后，在mask分支中，对于每个单词级别的实例，我们可以在多路径融合体系结构中融合相应的字符，单词和全局级别的功能，以进行实例分割。图3显示了多路径融合架构的详细图示。在提出的架构中，我们从不同的路径中提取多级特征并将其融合以获得更丰富的特征，以帮助学习更具区分性的表示形式。

形式化的，给定一个输入单词ri，我们首先确认属于该单词候选区域的字符结果Ci，确认的规则是字符和单词的交叠比，如果完全覆盖字符则该比率为1，否则为0。我们使用cj来标记这些字符。然后，属于单词ri的字符集合Ci可以使用公式（1）来收集：

这里bi和bj分别是单词ri的bbox和字符实例cj的bbox，T是阈值。在我们的实现中T=0.8。

因为字符的数量不是固定的，并且变化大，从0到100都有可能，对于一个给定的检测单词ri，我们融合Ci中的字符特征成为一个统一表示。特别的，我们使用RoIAlign来提取相关特征。每个字符特征的尺寸为固定为14*14，并且通过逐个元素相加来融合这些特征。通过一个3*3卷积和一个1*1卷积来获得最终的字符级别的特征。

通过进一步应用RoIAlign提取单词特征和相应的全局语义特征，我们通过逐元素求和将所有这三个层次的特征融合在一起，并将他们送入一个3*3卷积和一个1*1卷积中来获得更丰富的特征。最终的融合特征将会被用于实例分割。注意，这个被用于逐个元素相加特征的3*3卷积层和1*1卷积层的功能是进一步拟合不同特征之间的语义鸿沟。

整体目标：

最后，我们形式化表示TextFuseNet的整体优化目标来解决文本检测问题：

其中Lrpn、Lseg、Ldet和Lmask分别是RPN、语义分割分支、检测分支和mask分支的损失函数。

3.4 Weakly Supervised Learning

由于TextFuseNet是为了检测单词和字符而编写的，因此需要字符级标注来实现训练。但是，如前所述，某些现有数据集不提供字符级注释。标注字符是一项费时费力的工作，我们受到弱监督学习的启发，提出了一种基于弱监督的学习方案来帮助训练Text-FuseNet。在提出的方案中，我们通过使用预训练模型从弱监督数据中学习来搜索字符级别的训练样本。预训练模型是根据我们提出的框架在完全标注的数据集上进行训练的，该数据集同时提供字符级和单词级标注。然后，对于仅仅包含单词级别标注的数据集A，我们的弱监督学习目标是通过预训练模型来搜索字符训练样本。

更具体的说，我们首先在单词级别标注的数据集A上应用预训练模型M，对每个图片，获得一个候选字符样本集合：

其中，ci，si，bi和mi分别代表第i个候选字符样本的ri的预测类别，置信度，bbox和mask。然后我们根据置信度分数阈值和弱监督的单词标注过滤假阳性样本来获得正样本的字符级别样本。

其中C代表检测到的所有字符类型，S代表置用来确认字符正样本的信度阈值，mi代表候选字符样本ri的面积，gi代表候选字符所属于的单词样本的面积，T是面积比阈值。由于单词级别约束的存在，置信度阈值可以设置相对较低，也有利于保证字符样本的多样性。在我们的实现中，S和T分别设置为0.1和0.8。最后，识别出的正字符样本可以用作字符级别的标注，与单词级别标注结合使用，以获得更健壮和准确的文本检测模型。

4 Experiments

在本节，我们评估TextFuseNet在四个具有挑战性的公共基准数据集上的性能：ICDAR2013，ICDAR 2015，Total-Text和CTW-1500，并与以前的最新方法进行比较。

4.1 Datasets

ICDAR2013是典型的水平文本数据集，在ICDAR 2013稳健阅读竞赛的挑战2中提出。它包含229个训练图像和233个测试图像。ICDAR 2013还提供了字符级和单词级注释。

ICDAR2015是一个多方向的文本数据集，在ICDAR 2015健壮阅读竞赛的挑战4中提出。它专注于自然场景文本，包含1000个训练图像和500个测试图像。该数据集仅提供标有四边形的单词级注释。

Total-Text是用于场景文本读取的全面的任意形状文本数据集。Total-Text包含1255个训练图像和300个测试图像。所有图像在单词级别上都用多边形标注。

CTW-1500还专注于任意形状的文本读取，包含1000幅训练图像和500幅测试图像。与Total-Text不同，CTW-1500中的注释在文本行级别上带有多边形。

4.2 Implementation Details

基于Maskrcnn-benchmark实现，基于4个Tesla v100训练，1个卡评估。

训练

整个训练过程分为三个阶段：在SynthText上进行预训练，在弱监督下搜索特征训练样本以及对实际数据进行finetuning。由于SynthText同时提供单词和字符级别的标注，因此我们可以在完全监督的情况下获得经过预训练模型。经过预训练后，对于弱监督学习，我们在ICDAR 2015，Total-Text和CTW-1500上应用了预训练模型，以搜索其相应单词级标注的特征训练样本。然后，将识别出的字符样本与其原始词级标注组合在一起，以finetuning新数据集上的预训练模型。为了更好地分析所提出的TextFuseNet的功能，我们在每个数据集的backbone采用Resnet50、ResNet101两种深度的ResNet。此外，为了增强网络的鲁棒性，应用了诸如多尺度训练，随机旋转和随机色彩调整之类的数据增强策略。

优化器使用SGD。weight decay设置为0.0001，momentum设置为0.9。batch_size设置为8.在预训练阶段，在SynthText上训练20个epoch。在前10个epoch中将学习率设置为0.01，然后在后10个epoch中将学习率除以10。在微调阶段，每个数据集上的训练迭代次数均设置为20K。在前10K次迭代中，学习率设置为0.005，剩余的迭代，学习率除以10。

推理

在推理过程中，测试图片短边被缩放到1000，同时保持长宽比不变。在语义分词分支中提取全局语义特征。对于RPN生成的候选区域，我们为选择前1,000个候选。在得到检测结果的基础上，采用soft-NMS抑制冗余bbox。然后在抑制检测重新执行时执行实例配置。然后根据抑制的结果实现实例分割。我们仅仅保留单词级别的实例分割结果作为最终的文本检测结果。

4.3 Ablation Study

与原始的Mask RCNN相比，我们在TextFuseNet中提出了两个模块来提升文本检测的性能。一个是构建多级特征表示MFR，另一个是多路特征融合架构MFA。因此，我们在ICDAR2015和Total-Text数据集中构建了消融学习实验来评估TextFuseNet的每个模块如何影响文本检测最终的性能。针对ICDAR 2015的每个数据集和Total-Tect，训练了三个模型，不同模型的比较结果如表1所示。“baseline”指的是用原Mask-CNN训练的模型。“MFR”表示用Mask R-CNN训练的多层次特征表示的模型，“MFR+MFA”是指完全实现TextFuseNet的模型。在这项消融研究中使用的backbone是一个带有ResNet-50的FPN。

如表1所示，多级别特征表示单独使用可以显著提升精度和召回率。F只提升大约2%。结合MFA和MFR的模型能够超出baselineF值4.6%(IC15)、4.3%（TT）。