【读点论文】TextFuseNet: Scene Text Detection with Richer Fused Features，多角度层次理解任意形状文本检测任务

最新推荐文章于 2024-09-12 23:40:25 发布

羞儿

最新推荐文章于 2024-09-12 23:40:25 发布

阅读量591

点赞数 10

分类专栏：论文笔记文章标签： OCR 深度学习弱监督学习

本文链接：https://blog.csdn.net/weixin_43424450/article/details/141121222

版权

论文笔记专栏收录该内容

164 篇文章 33 订阅

订阅专栏

TextFuseNet: Scene Text Detection with Richer Fused Features

Abstract

自然场景中的任意形状文本检测是一项极具挑战性的任务。与现有的仅基于有限特征表示来感知文本的文本检测方法不同，我们提出了一种新颖的框架，即 TextFuseNet，以利用融合的更丰富的特征进行文本检测。更具体地说，我们建议从三个特征表示级别（即字符、单词和全局级别）感知文本，然后引入一种新颖的文本表示融合技术来帮助实现强大的任意文本检测。多级特征表示可以通过将文本分解为单个字符来充分描述文本，同时仍保持其一般语义。然后，TextFuseNet 使用多路径融合架构从不同级别收集和合并文本的特征，该架构可以有效地对齐和融合不同的表示。在实践中，我们提出的 TextFuseNet 可以学习对任意形状文本的更充分的描述，抑制误报并产生更准确的检测结果。对于缺乏字符级注释的数据集，我们提出的框架也可以通过弱监督进行训练。在多个数据集上的实验表明，所提出的 TextFuseNet 实现了最佳性能。具体而言，我们在 ICDAR2013 上实现了 94.3% 的 F 值，在 ICDAR2015 上实现了 92.1% 的 F 值，在 Total-Text 上实现了 87.1% 的 F 值，在 CTW-1500 上实现了 86.6% 的 F 值。
项目地址：GitHub - ying09/TextFuseNet: A PyTorch implementation of “TextFuseNet: Scene Text Detection with Richer Fused Features”.
论文地址：0072.pdf (ijcai.org)
该算法用三个层次的特征来表示文本，字符、单词和全局级别，然后引入一种新的文本融合技术融合这些特征，来帮助实现鲁棒的任意文本检测。另外提出了一个弱监督学习机制，可以生成字符级别的标注，在缺乏字符级注释的数据集情况下也可以进行训练。
本文提出的TextFuseNet能够有效的解决这些问题，并且可以高效准确的预测任意形状的文本。TextFuseNet与其他算法相比主要的区别在于，有效的利用各种层次的特征，例如字符级别的、单词级别的、全局级别的特征，而其他的文本检测算法往往只使用一种层次的特征。
基于字符级别的检测算法首先提取单个字符，然后再使用字符合并算法合并这些字符成一个单词，然而这种方法因为要生成大量的字符候选框并且要合并，比较耗时。相比之下，基于单词级别的检测算法直接检测单词，会更高效和简单，但这种方法通常无法有效地检测具有任意形状的文本。为了解决这个问题，一些基于单词的方法进一步应用实例分割来进行文本检测。在这些方法中，前景分割掩码被估计以帮助确定各种文本形状。

Introduction

场景文本检测在计算机视觉领域越来越受到关注。随着深度学习的快速发展，场景文本检测取得了许多进展。然而，这项任务仍然具有挑战性，因为文本通常具有多样化的形状，文本检测器很容易受到复杂背景、不规则形状和纹理干扰等问题的影响。
现有的方法主要有两种类型：基于字符的方法和基于词的方法。基于字符的方法将文本视为多个字符的组合。他们首先用精心设计的字符检测器提取字符，然后将它们分组为单词。然而，基于字符的方法通常非常耗时，因为为文本检测生成的字符候选数量非常多。与基于字符的方法不同，已经提出了基于词的方法，基于通用对象检测管道直接检测单词。虽然它们更简单、更高效，但这些方法通常无法有效检测任意形状的文本。为了解决这个问题，一些基于词的方法进一步应用实例分割来进行文本检测。在这些方法中，估计前景分割蒙版以帮助确定各种文本形状。尽管结果很有希望，但现有的基于实例分割的方法仍然存在两个主要局限性。首先，这些方法仅基于单个感兴趣区域 (RoI) 检测文本，而不考虑全局上下文，因此它们往往会基于有限的视觉信息产生不准确的检测结果。其次，现行方法没有对不同层次的词语语义进行建模，这存在文本检测产生误报的风险。图 1 显示了这些方法的一个示例。
- 图 1：常用的基于实例分割的方法 (a) 和我们提出的 TextFuseNet (b) 的结果说明。绿色多边形代表真阳性，红色多边形代表假阳性。
在本文中，我们提出了一种新颖的场景文本检测框架，即 TextFuseNet，通过利用更丰富的融合特征来有效检测任意形状的文本。总体而言，我们遵循 Mask R-CNN 和 Mask TextSpotter ，将文本检测任务制定为实例分割任务。与这些方法不同，我们重塑了 Mask R-CNN 的原始流程，以实现对三个级别的特征表示（即字符、单词和全局级特征）的分析和融合，以进行文本检测。具体而言，我们首先在检测流程中引入一个额外的语义分割分支，以帮助感知和提取全局级表示。全局语义特征随后可用于指导检测流程的检测和掩码分支。接下来，我们尝试在 Mask R-CNN 流程中的检测和掩码分支中提取字符级和单词级特征。
与原始的 Mask R-CNN 不同，在检测和 mask 分支中，我们不仅检测和分割单词实例，还检测和分割字符实例，提供字符和单词级别的表示。在感知三级表示之后，我们引入多路径特征融合架构，通过多路径融合网络融合字符、单词和全局级别的特征，以便 TextFuseNet 学习更具判别性的表示并产生更准确的文本检测结果。在实践中，考虑到一些现有数据集缺乏字符的注释，我们进一步开发了一种弱监督学习方案，通过从单词级别的注释数据集中学习来生成字符级别的注释。总体而言，TextFuseNet 的架构如图 2 所示。
- 图 2：所提框架的总体流程。我们提取并利用了三个级别的特征表示，即文本的字符级、单词级和全局级特征。我们还提出了多路径融合架构，以获得更丰富的融合特征用于文本检测。
这项工作的贡献有三方面：
- （1）我们提出了一个新颖的框架，即 TextFuseNet，它提取字符、单词和全局级别的特征，并引入多路径融合架构来融合它们以实现准确的文本检测；
- （2）基于所提出的框架，我们引入了一种弱监督学习方案，该方案利用字级注释来指导搜索字符训练样本，从而实现无需字符实例注释的有效学习；
- （3）我们提出的框架在几个包含任意形状文本的著名基准上实现了最佳性能。

Related Work

如上所述，现有的方法大致可以分为两大类，即基于字符的方法和基于词的方法。
基于字符的方法通常首先应用一些复杂的字符检测器，例如 SWT、MSER 和 FASText，来提取字符候选。这些字符候选由字符/非字符分类器过滤以删除错误候选。最后，根据先验知识或一些聚类/分组模型将剩余的字符分组为单词。然而，大多数基于字符的方法需要精心设计并涉及多个处理阶段，这非常复杂并导致错误累积。因此，基于字符的方法的性能总是耗时且不是最优的。
基于单词的方法直接检测单词，主要受到通用物体检测方法的启发。一种由 CNN 和 RNN 组成的连接文本提议网络 (CTPN)，通过链接一系列小文本框来检测整行文本。受到 SSD 的启发，提出了 TextBoxes 及其扩展 TextBoxes++，通过添加多个文本框层。提出了 SegLink，采用全卷积网络 (FCN) 来检测文本片段及其链接关系。文本片段根据它们的关系被链接起来作为最终的检测结果。但这些方法仅适用于水平或多方向的文本。
为了应对任意形状文本的挑战，已经提出了许多基于实例分割的方法来检测任意形状的文本。通过CNN进行文本/非文本预测和链接预测，并将正样本像素与正链接连接起来，直接获得文本框而无需回归。提出了一种基于Mask R-CNN定位文本区域的监督金字塔上下文网络（SPCNet）。提出了一种渐进尺度扩展网络（PSENet）来检测具有任意形状的文本。 将像素映射到嵌入空间，并引入形状感知损失，使训练自适应地适应文本实例的各种长宽比。与以往的工作相比，我们分析和融合了更多不同层次的特征，以获得更丰富的融合特征，有效地提高了文本检测的性能。

Methodology

在这一节中，我们描述了如何通过语义分割，检测和掩码分支提取多层次特征表示，以及如何使用多路径融合架构将它们融合在一起，同时，我们还探索了用于生成字符级注释的弱监督学习策略。

Framework

图2描绘了TextFuseNet的整体架构。在TextFuseNet中，我们首先提取多层次的特征表示，然后进行多路径融合来进行文本检测。这个框架主要由五个组件实现：特征金字塔网络（FPN）作为用于提取多尺度特征图的主干，区域提议网络（RPN）用于生成文本提议，用于利用全局语义的语义分割分支、用于检测单词和字符的检测分支、以及用于例如单词和字符的分割的掩码分支。
在TextFuseNet中，我们首先遵循Mask R-CNN和Mask TextSpotter，并使用ResNet作为FPN的主干。同时，我们使用RPN为后续的检测和掩码分支生成文本建议。然后，为了提取多级特征表示，我们主要提出应用以下实现。首先，我们引入一个新的语义分割分支，对输入图像进行语义分割，帮助获得全局级特征。然后，在通过预测文本建议的类别并采用边界框回归来细化文本建议的检测分支中，我们提取并融合单词和全局级别的特征来检测单词和字符。这与现有方法不同，现有方法只关注每个提案的单个单词或字符。
对于对检测分支检测到的对象执行实例分割的掩码分支，我们提取并融合所有字符、单词和全局级特征以完成实例分割，以及最终的文本检测任务。提取多级特征表示的详细网络配置在第3.2节中给出。在提取多个特征之后，然后，我们提出了一种多路径融合架构，用于融合不同的特征来检测任意形状的文本。多路径融合架构可以有效地对齐和合并多层次特征，以提供鲁棒的文本检测。多路径融合架构的实现细节在第3.3节中描述。

Multi-level Feature Representation

一般来说，在检测器的检测和掩码分支中可以很容易地获得字符和单词级别的特征。我们可以通过检测提案中出现的单词和字符来实现这一点。这里应用RoIAlign来提取不同的特征，并对单词和字符进行检测。
然而，我们在特征提取阶段需要一个新颖的网络来帮助获取全局级特征。因此，我们建议在检测器中进一步使用语义分割分支来提取全局级特征。如图2所示，在FPN输出的基础上构造语义分割分支，将各个层次的特征融合到一个统一的表示中，并在这个统一的表示上进行分割在实践中，我们应用1×1卷积来对齐来自不同级别的特征的通道号，并将特征图调整为相同的大小，以便稍后统一。

Multi-path Fusion Architecture

在得到多层次特征后，在检测分支和掩码分支中采用多径融合，在检测分支中，基于 RPN 得到的文本建议，我们在不同的路径中提取用于文本检测的全局和单词级特征。然后，我们融合这两种类型的特征，以单词和字符的形式提供文本检测。请注意，我们不能提取和融合字符-在检测分支中使用全局和单词级特征，因为在执行检测之前字符尚未被识别。在实践中，给定生成的文本提案，我们使用RoIAlign从FPN的输出特征中提取7×7大小的全局和单词级特征。我们通过按元素求和来融合这些特征，将融合后的特征分别送入3×3卷积层和1×1卷积层进行分类和边界盒回归。
在掩码分支中，对于每个单词级实例，我们可以在多路径融合架构内融合相应的字符级、单词级和全局级特征，以进行实例分割。图3显示了多路径融合架构的详细说明。在所提出的架构中，我们从不同的路径中提取多级特征，并将它们融合以获得更丰富的特征，以帮助学习更具鉴别力的表示。
- 因此，从这些在 ICDAR 2013、ICDAR 2015、Total-Text 和 CTW-1500 上的实验结果来看，我们提出的 TextFuseNet 达到了最佳性能。此外，在速度方面，TextFuseNet 也能以适当的速度进行推理，与一些以前的方法相比具有一定的优势。图 4 显示了一些使用 TextFuseNet 的示例。
- TextFuseNet网络结构主要分为三个分支:
  - 第一个是语义分割分支( semantic segmentation branch)，该分支用来提取液全局级别的特征；
  - 另外二个是检测分支和mask分支(detection and mask branches)，用来提取字符级别和单词级别的特征；
  - 在得到三种层次的特征后，使用多路径特征融合体系结构(Multi-path Fusion Architecture)，融合三者特征，生成更具代表性的特征表示，从而产生更准确的文本检测结果。
形式上，给定一个由 ri 表示的输入单词，我们首先根据其与字符的交集在字符面积上的比率来识别属于这个单词建议的字符结果 Ci，这意味着如果单词框完全覆盖字符，则该比率为 1，否则为 0。我们使用 cj 来表示字符。然后可以基于以下条件来收集属于单词 ri 的字符集 Ci：
- $C_i=\{c_i|\frac{b_i∩ b_j}{b_j}>T\}$
- 其中 bi 和 bj 分别是单词 ri 和字符实例 cj 的边界框，T 是阈值。在我们的实现中，我们设置 T = 0.8。
由于字符的数量不是固定的，并且可以从零到数百个，对于给定的检测到的单词 ri，我们将集合Ci中的字符的特征融合到统一的表示中。我们首先使用RoIAlign 为 Ci 中的每个字符提取相应的 14×14 大小的特征，然后通过元素融合这些特征图，通过一个3×3卷积层和一个1×1卷积层，我们可以得到最终的字符级特征。
通过进一步应用 RoIAlign 来提取词的特征和相应的全局语义特征，我们通过元素求和来融合所有这三个级别的特征，并将其送入3×3卷积层和1×1层，以获得更丰富的特征。最终融合的特征用于例如分割。注意，3×3卷积层和1×1卷积层后面的元素-wise的求和用于进一步弥合不同特征之间的语义鸿沟。
总体目标。最后，我们制定了解决文本检测问题的建议TextFuseNet的总体目标：
- $L = L r p n + L se g + L d e t + L ma s k$
- 其中Lrpn、Lseg、Ldet和Lmask分别是RPN、语义分割分支、检测分支和掩码分支的损失函数。

Weakly Supervised Learning

由于TextFuseNet被制定为检测单词和字符，因此需要字符级注释来实现有效的训练。然而，如前所述，一些现有的数据集不提供字符级注释来训练TextFuseNet。而不是注释字符，这是一项耗时且劳动力成本高的任务，我们受到弱监督学习思想的启发，提出了一种基于弱监督的学习方案来帮助训练TextFuseNet。在所提出的方案中，我们通过使用预训练模型从弱监督数据中学习来搜索字符级训练示例。预训练模型基于我们提出的框架在提供字符和单词级注释的完全注释数据集上进行训练。然后，对于只有单词级注释的数据集 A，我们开发的弱监督学习的目标是通过预先训练的模型 M 在 A 中搜索字符训练样本。
更具体地说，我们首先将预训练模型 M 应用于单词级注释数据集 A。对于数据集 A 中的每个图像，我们可以获得一组字符候选样本：
- $R = \{r_0(c_0; s_0; b_0; m_0); r_1(c_1; s_1; b_1; m_1); · · · ; r_i(c_i ; s_i ; b_i ; m_i); · · · \}, (3)$
- 其中ci、si、bi和mi分别表示第i个字符候选样本ri的预测类别、置信度分数、边界框和掩码。然后我们基于置信度分数阈值和弱监督单词级注释过滤R中的假阳性样本，并获得阳性字符样本：
- 其中 C 表示所有需要检测的字符类别，S 表示用于识别正字符样本的置信度得分阈值， $\frac{(m_i∩g_i)}{m_i}$ 表示候选字符样本 ri 与其词级真实值 gj 的交集重叠度，T是判断候选字符样本是否在词内的阈值。由于词级标注提供的约束，置信度得分阈值 S 可以设置得相对较低，这也有利于保持字符样本的多样性。在我们的实现中，S和T分别设置为0.1和0.8。最后，识别出的正字符样本可以作为字符级标注，并与词级标注相结合，训练出更鲁棒、更准确的文本检测模型

Experiments

在本节中，我们在四个具有挑战性的公共基准数据集上评估 TextFuseNet 的性能：ICDAR 2013、ICDAR 2015、Total-Text 和 CTW-1500，并与以前最先进的方法进行比较。

Datasets

SynthText 是一个合成生成的数据集，通常用于预训练文本检测模型。该数据集包含 800,000 张图像，其中有 800 万个合成单词实例，并以旋转矩形的形式提供单词和字符级注释。
ICDAR2013 是典型的水平文本数据集，是在 ICDAR 2013 鲁棒阅读竞赛的挑战 2 中提出的。它包含 229 张训练图像和 233 张测试图像。ICDAR 2013 还提供字符和词级标注。
ICDAR2015 是一个多方向文本数据集，是在 ICDAR 2015 稳健阅读竞赛的挑战 4 中提出的。它专注于偶然场景文本，包含 1000 张训练图像和 500 张测试图像。该数据集仅提供用四边形标记的词级标注。
Total-Text 是一个全面的任意形状文本数据集，用于场景文本阅读。Total-Text 包含 1255 张训练图像和 300 张测试图像。所有图像均以单词级多边形进行注释。
CTW-1500 也专注于任意形状文本读取，包含 1000 张训练图像和 500 张测试图像。与 Total-Text 不同，CTW-1500 中的注释在文本行级别使用多边形进行标记。

Implementation Details

我们基于 Maskrcnnbenchmark 实现了我们的框架，所有实验都在配备 NVidia Tesla V100 (16G) GPU 的高性能服务器上进行。该模型使用 4 个 GPU 进行训练，并使用 1 个 GPU 进行评估。
训练。整个训练过程分为三个阶段：在 SynthText 上进行预训练、在弱监督下搜索字符训练样本以及在真实世界数据上进行微调。由于 SynthText 提供单词和字符级注释，我们可以获得具有完全监督的预训练模型。预训练后，对于弱监督学习，我们将预训练模型应用于 ICDAR 2015、Total-Text 和 CTW-1500 上，以搜索其对应单词级注释的字符训练样本。然后将识别出的字符样本与其原始单词级注释相结合，以在新数据集上微调预训练模型。为了更好地分析所提出的 TextFuseNet 的能力，我们在每个数据集上采用具有两个不同深度 50、101 的 ResNet 作为主干。此外，为了增强网络鲁棒性，应用了多尺度训练、随机旋转和随机颜色调整等数据增强策略。
采用随机梯度下降 (SGD) 来优化我们的框架。权重衰减设置为 0.0001，动量设置为 0.9，批量大小设置为 8。在预训练阶段，我们在 SynthText 上训练模型 20 个 epoch。前 10 个 epoch 的学习率设置为 0.01，后 10 个 epoch 的学习率除以 10。在微调阶段，每个数据集上的训练迭代次数设置为 20K。前 10K 次迭代的学习率设置为 0.005，其余迭代的学习率除以 10。
推理。在推理过程中，测试图像的短边被缩放到 1000，同时保持长宽比不变。在语义分割分支中提取全局语义特征。对于 RPN 生成的文本提案，我们为检测分支选择了前 1,000 个提案。根据获得的检测结果，我们采用 Soft NMS 来抑制冗余边界框。然后对抑制后的检测结果执行实例分割。我们只保留单词实例的实例分割结果作为最终的文本检测结果。

Ablation Study

与原始的 Mask R-CNN 相比，我们在所提出的 TextFuseNet 中引入了两个模块来提高文本检测的性能。第一个模块是进行多级特征表示（MFR）。另一个模块是引入多路径特征融合架构（MFA）以获得更丰富的融合特征用于文本检测。因此，我们对 ICDAR 2015 和 Total-Text 进行了消融研究，以评估 TextFuseNet 中每个模块如何影响最终性能。对于 ICDAR 2015 和 Total-Text 的每个数据集，训练了三个模型，不同模型的比较结果如表 1 所示。“Baseline”是指使用原始 Mark R-CNN 训练的模型。“MFR”表示使用多级特征表示的 Mask R-CNN 训练的模型，“MFR+MFA”是指完全实现 TextFuseNet 的模型。本次消融研究中使用的主干网络是带有 ResNet-50 的 FPN。
- 表 1：TextFuseNet 中每个模块的性能贡献。 “MFR”表示多级特征表示，而“MFA”表示多路径融合架构。“P”、“R”和“F”分别表示准确率、召回率和 F 测量值。
如表 1 所示，多级特征表示单独使用可以显著提高准确率和召回率，最终“MFR”在 ICDAR 2015 和 Total-Text 上的 F 值提升超过 2%。此外，“MFR”和“MFA”的组合可以进一步提升性能，在 ICDAR 2015 和 Total-Text 上分别比基线提高了 4.6% 和 4.3% 的 F 值。这些结果验证了多级特征表示和多路径特征融合都有助于获得更丰富的融合特征和更具判别性的表示，这有利于文本检测。

Comparisons with State-of-the-Art Methods

任意形状文本检测。如上所述，CTW-1500 和 Total-Text 专注于任意形状的文本，其中大多数图像中同时存在水平、多方向和弯曲的文本。因此，我们使用这两个数据集来评估 TextFuseNet 在检测任意形状文本方面的有效性。表 2 的最后两列分别列出了 TextFuseNet 与 CTW-1500 和 Total-Text 上的一些先前方法的比较结果。请注意，FPS 仅供参考，因为不同的方法采用不同的 GPU。如表 2 所示，我们提出的使用单尺度推理的 TextFuseNet 在 CTW-1500 和 TotalText 上都实现了最先进的性能。具体来说，在 CTW-1500 中，以 ResNet-50 为骨干的 TextFuseNet 实现了 85.4% 的 F 值，比目前最好的 F 值高出 1.7%。当骨干为 ResNet-101 时，可以实现更令人信服的结果（Fmeasure：86.6%），比其他所有竞争对手至少高出 2.9%。同样，对于 Total-Text，我们的 TextFuseNet 与 ResNet-50 已经实现了最先进的结果，其 ResNet-101 版本比其他方法至少高出 2.1%。上述实验结果表明，TextFuseNet 可以在任意形状文本检测上获得最先进的性能。
- 表2：在不同数据集上的评估结果。“∗”表示多尺度推理。
多方向文本检测。我们还评估了 TextFuseNet 在 ICDAR 2015 上检测多方向文本的有效性。我们的结果和与以前作品的比较显示在表 2 的第三列中。如表 2 所示，以 ResNet-50 和 ResNet-101 为骨干的 TextFuseNet 实现了最先进的性能，它们的 F 度量分别为 90.1% 和 92.1%。与目前最好的版本相比，我们的 ResNet-50 和 ResNet-101 版本分别比它高出 2.4% 和 4.4%。此外，据我们所知，我们提出的框架是 ICDAR 2015 上第一个 F 度量超过 90.0% 的框架。
水平文本检测。最后，我们评估了 TextFuseNet 在 ICDAR 2013 上检测水平文本的有效性。表 2 的第二列显示了 TextFuseNet 的结果以及与以前作品的比较。以 ResNet-50 和 ResNet101 为骨干的 TextFuseNet 都取得了非常出色的结果，F 值分别为 92.2% 和 94.3%，优于所有以前的作品。
因此，从这些在 ICDAR 2013、ICDAR 2015、Total-Text 和 CTW-1500 上的实验结果来看，我们提出的 TextFuseNet 达到了最佳性能。此外，在速度方面，TextFuseNet 也能以适当的速度进行推理，与一些以前的方法相比具有一定的优势。图 4 显示了一些使用 TextFuseNet 的示例。
- 图 4：TextFuseNet 在不同数据集上的示例结果。(a) 至 (d) 的样本图像分别选自 ICDAR 2013、ICDAR 2015、Total-Text 和 CWT-1500。