【读点论文】FAST: Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel高效文本检测器，适配多种文本形状

本文链接：https://blog.csdn.net/weixin_43424450/article/details/144141320

FAST: Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel Representation

Abstract

我们提出了一个准确、高效的场景文本检测框架，称为 FAST（即更快的任意形状文本检测器）。与最近的高级文本检测器使用复杂的后处理和手工制作的网络架构导致推理速度慢不同，FAST 有两种新设计。（1）我们设计了一个极简内核表示（只有 1 通道输出）来模拟任意形状的文本，以及一个 GPU 并行后处理以几乎可忽略的时间开销高效地组装文本行。（2）我们搜索专门为文本检测定制的网络架构，从而获得比大多数用于图像分类的网络更强大的功能。受益于这两种设计，FAST 在几个具有挑战性的数据集上实现了准确度和效率之间的出色平衡，包括 Total Text、CTW1500、ICDAR 2015 和 MSRA-TD500。例如，FAST-T 在 Total-Text 上以 152 FPS 的速度实现了 81.6% 的 Fmeasure，准确率和速度均比之前最快的方法高出 1.7 个百分点，且快了 70 FPS。通过 TensorRT 优化，推理速度可进一步加速至 600 FPS 以上。代码和模型将在 https://github.com/czczup/FAST 发布。
论文地址：[2111.02394] FAST: Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel Representation

INTRODUCTION

场景文本检测是计算机视觉领域的一项基本任务，具有广泛的实际应用，例如图像理解、即时翻译和自动驾驶。随着深度学习的显著进步，已经提出了大量方法来检测任意形状的文本，并且在公共数据集上的性能不断刷新。然而，我们认为上述方法仍有改进空间，因为两个主要的次优设计：（1）低效的后处理和（2）手工制作的网络架构。
首先，先前研究的后处理通常占整个推理时间的 30%。此外，这些后处理方法设计为在 CPU 上运行（见图 2），难以与 GPU 资源并行，导致效率相对较低。一般来说，后处理与文本表示方法密切相关，这决定了是否可以对其进行优化以实现 GPU 并行性。因此，为实时文本检测器开发一种具有可并行后处理的 GPU 友好表示方法非常重要。
其次，大多数现有的文本检测器采用重型手工制作的主干（例如 ResNet50 ）来实现出色的性能，但在一定程度上牺牲了推理速度。为了提高效率，一些方法基于 ResNet18 开发了文本检测器，但主干最初是为图像分类设计的，可能不是文本检测的最佳选择。虽然已经提出了许多自动搜索的轻量级网络，但它们仅专注于图像分类或一般对象检测，很少考虑在文本检测中的应用。因此，如何设计一个高效而强大的文本检测专用网络是一个值得探索的课题。
在本文中，我们提出了一个高效且功能强大的文本检测框架，称为 FAST（更快的任意形状文本检测器）。如图 2 所示，FAST 包含以下两个主要改进以实现高效率：（1）我们提出了一个极简核表示（MKR），将文本行表示为被外围像素包围的侵蚀文本区域。与现有的核表示相比，我们的 MKR 不仅有利于网络预测 1 通道输出，而且还享有 GPU 并行后处理——文本扩张。（2）我们为文本检测任务精心设计了 NAS 搜索空间和奖励函数。搜索到的高效主干网络被称为 TextNet，与在图像分类上搜索的网络（例如 MobileNetV3 ）相比，它可以为文本检测提供更强大的特征。结合这些设计的优点，我们的方法在准确性和推理速度之间实现了极好的权衡。
- 图 2. 代表性任意形状文本检测器的总体流程。 “Post-Proc.”是后处理的缩写。我们的 FAST 实现了比以前的方法更快的推理速度，这得益于 (1) 具有 GPU 并行后处理方法（文本分离）的极简内核表示 (MKR)，以及 (2) 专门用于文本检测的高效 TextNet 架构。
为了证明 FAST 的有效性，我们在四个具有挑战性的基准数据集上进行了大量实验，包括 Total-Text 、CTW1500 、ICDAR 2015 和 MSRA-TD500 。根据模型大小，我们分别将文本检测器命名为 FAST-Tiny/Small/Base（简称 FAST-T/S/B）。
- 图 1. Total-Text 数据集上不同文本检测器的文本检测 F 度量和推理速度。我们的 FAST 模型（根据模型大小称为 FAST-T/S/B）比 PAN 和 DB 等最先进的模型具有更快的推理速度和更高的准确率。
如图 1 所示，在 Total-Text 数据集上，FAST-T-448（即将输入图像的短边缩放到 448 像素）以 152.8 FPS 实现 81.6% 的 F 测量值，比之前最快的方法 PAN-320 的 F 测量值高 1.7%，快 70 FPS。此外，我们的最佳模型 FAST-B-800 在保持实时速度（46.0 FPS）的同时实现了 87.5% 的 F 测量值。总而言之，我们的贡献如下：
- （1）我们开发了一种准确、高效的任意形状文本检测器，称为 FAST，它在后处理和网络架构方面完全与 GPU 并行。
- （2）我们提出了一种具有 GPU 并行后处理——文本扩张的极简核表示（MKR），显著减少了其时间开销。
- （3）我们设计了专门针对文本检测的NAS搜索空间和奖励函数，并搜索了一系列对文本检测友好且推理速度不同的骨干网络（即TextNet）。
- （4）我们的 FAST-T 模型在 TotalText 上实现了惊人的 152.8 FPS 速度，同时保持了具有竞争力的准确率。通过 TensorRT 优化，它可以进一步加速到 600 FPS 以上。
FAST的核心亮点在于其独特的设计理念：
- 极简主义核心表示：采用单通道输出来建模任意形状的文本，这不仅简化了模型结构，还通过GPU并行后处理大幅提升了组装文本线的速度，几乎不增加额外的时间成本。
- 针对性网络架构搜索：不同于传统的为图像分类优化的网络结构，FAST通过专门针对文本检测进行的网络架构搜索，获得了更强的特征表达能力，从而在保证高精度的同时，实现了运行效率的飞跃。
无论是智能监控系统中的实时文字提取，OCR应用中的快速文档处理，还是数字营销中的图像内文字分析，FAST都能大显身手。特别是对于那些对处理速度有严格要求的应用，如移动支付二维码的快速识别、新闻图片的自动化标注等场景，FAST都是理想的选择。

RELATED WORK

A. Scene Text Detection

受到一般物体检测方法的启发，许多方法被提出来检测水平和多方向文本。例如， CTPN 成功地将物体检测框架迁移到水平文本检测，并获得了有希望的结果。一些研究人员 [Textboxes++]、[Rotation-sensitive regression for oriented scene text detection]、[East] 考虑了文本行的方向，并设计了各种方法来检测多方向文本。然而，大多数方法都无法准确定位弯曲文本。
为了弥补这一缺陷，最近的方法将文本检测任务视为分割问题。例如，TextSnake 设计了一种灵活的场景文本表示，将文本实例描述为以对称轴为中心的有序重叠圆盘序列。PixelLink 通过在像素级执行文本/非文本预测和链接预测来分离相邻的文本行。SPCNet 和 Mask TextSpotter 旨在以实例分割的方式检测任意形状的文本。SAE 引入了形状感知损失和新的集群后处理，以区分具有各种长宽比和小间隙的相邻文本行。PSENet 提出通过文本核来呈现文本实例，并开发了渐进式尺度扩展 (PSE) 算法来合并多尺度文本核。尽管上述方法取得了出色的性能，但由于繁琐的后处理方法和复杂的网络架构，它们中的大多数都以较慢的推理速度运行。

B. Real-time Text Detection

随着实时应用需求的不断增长，高效的文本检测受到越来越多的关注。EAST 应用全卷积网络 (FCN) 直接为文本区域生成旋转的矩形或四边形，这是第一个以 20 FPS 运行的文本检测器。PAN 和 DB 是两个具有代表性的实时文本检测器，它们都采用了轻量级主干（即 ResNet18 ）来加速推理。对于后处理，PAN 开发了一种可学习的后处理算法，即像素聚合 (PA)，以利用预测的相似性向量来提高准确率。 DB 提出了框形成过程，该过程利用 Vatti 裁剪算法来扩大预测的文本核。最近，PAN++ 和 DB++ 扩展了他们以前的方法并获得了改进的检测性能。尽管与以前的方法相比，这些方法简化了文本检测流程，但由于基于 CPU 的后处理和次优的手工制作的网络架构，实时文本检测仍有改进空间。

C. Neural Architecture Design

网络架构设计是计算机视觉领域的一个持续研究课题。对于文本检测任务，现有的大多数方法采用了手工制作的主干网络，例如VGG和ResNet，但这些主干网络最初是为图像分类设计的，可能不是文本检测的最佳选择。最近，由于神经架构搜索（NAS）技术的出现，神经网络的设计发生了重大变化。许多自动搜索的高效网络，如Proxyless、EfficientNet、OFA和MobileNetV3，在工业界和研究界发挥着越来越重要的作用。尽管取得了这些进展，但这些基于NAS的模型主要局限于图像分类和一般物体检测等少数任务，导致在其他任务中的泛化能力较弱。为了弥补这些缺点，许多研究人员探索将 NAS 方法应用到他们各自的特定领域，包括语义分割[Auto-deeplab]、姿势估计和场景文本识别[Memory-efficient models for scene text recognition via neural architecture search]，[Autostr: Efficient backbone search for scene text recognition]等。然而，将 NAS 方法扩展到文本检测仍然很少。

PROPOSED METHOD

A. Overall Architecture

如图 3 所示，所提出的 FAST 包含（1）GPU 并行后处理——文本扩张，用于从预测的文本核重建完整的文本行；（2）具有多个可搜索块的骨干网络，用于文本检测的架构搜索。
在推理阶段，我们首先将 H×W×3 的输入图像输入到骨干网络中，获得多尺度特征，分别为原始图像分辨率的 1/4、1/8、1/16、1/32。然后，我们通过 3×3 卷积将每个特征图的维度降低到 128，并通过函数 C(·) 对这些特征图进行上采样和连接，以获得最终的特征图 F，其形状为 H=4×W=4×512（见图 3©）。之后，最终的特征图 F 经过一个轻量级的 2 层卷积头来执行文本核分割。最后，我们通过文本扩张过程重建完整的文本区域，时间开销可以忽略不计，如图 3(d) 和图 3(e) 所示。
在训练过程中，我们使用损失函数 $L_{ker}$ 和 $L_{tex}$ 分别优化网络预测的文本核（见图 3（d））和后处理生成的文本区域（见图 3（e））。在搜索过程中，我们基于广泛使用的搜索框架 ProxylessNAS 进行文本检测的架构搜索。具体来说，我们根据分割准确率和推理速度计算奖励，然后使用基于强化的策略来优化网络架构。训练和搜索的过程以交替的方式进行。当架构搜索完成后，我们可以修剪冗余路径并得到最终的架构。

B. Minimalist Kernel Representation

1）定义：为了简化后处理，我们提出了一种新颖的文本表示方法，称为极简内核表示 (MKR)。如图 4 所示，我们的 MKR 将给定的文本行公式化为具有外围像素的侵蚀文本区域（即文本内核）。与现有的内核表示相比，我们的 MKR 有以下两个主要区别。
- 首先，由于我们的文本核标签是通过形态学腐蚀操作生成的，因此可以通过逆操作（即膨胀）将其近似地恢复为完整的文本区域。此外，腐蚀和膨胀都可以在 PyTorch 中通过 GPU 加速轻松实现。
- 其次，我们的 MKR 仅要求网络预测 1 通道输出，这比以前需要多通道输出的方法更简单，如图 2 所示。据我们所知，它可能是任意形状文本检测的最简单的核表示。
2）标签生成：为了学习这种表示，我们需要为文本核和文本区域生成标签。具体来说，对于给定的文本图像，可以通过填充边界框直接生成文本区域的标签，该标签表示为 Gtex（见图 4（b））。请注意，Gtex 是二值图像，对 Gtex 应用具有 s × s 核的腐蚀算子，文本区域的外围像素将转换为非文本像素。为了避免由于腐蚀操作而丢失文本实例，我们为每个文本区域保留至少一个最小文本核。我们将此结果作为文本核的标签，并将其表示为 Gker（见图 4（c））。
- 图 4. 极简核表示 (MKR) 的标签生成。对于给定图像，可以通过填充边界框来生成文本区域标签。然后，对其应用侵蚀算子，我们可以获得文本核标签。我们使用这两个标签来监督我们的文本检测器。
3）后处理：基于所提出的 MKR，我们开发了一种 GPU 并行后处理，称为文本扩张，以可忽略不计的时间开销恢复完整的文本行。伪代码如算法 1 所示，其中我们利用具有 s × s 内核的最大池化函数来等效地实现扩张运算符。
在训练期间，对于给定的文本核预测，我们直接应用膨胀算子来重建整个文本区域。由于此步骤是可微分的，我们可以监督文本核和文本区域以获得更准确的预测，如图 3 所示。在推理阶段，我们首先将预测的文本核二值化，并实现 GPU 加速的连通分量标记 (CCL) 算法来区分不同的文本核。最后，我们应用膨胀算子重建完整的文本行。

C. Efficient TextNet for Text Detection

1）搜索空间：我们遵循ProxylessNAS ，为文本检测的架构搜索构建了一个骨干网络。如图3（f）所示，骨干网络的每个阶段由一个步长为 2 的卷积和 Li 个可搜索块组成，其中步长为 2 的 3×3 卷积用于对特征图进行下采样，每个可搜索块由一组候选操作组成，在架构搜索之后，从中选择最合适的操作作为最终操作。为了追求极快的速度，我们使用可重参数化卷积作为候选操作，并在推理过程中将它们合并为没有多分支拓扑的普通卷积。
- 具体来说，我们提出了一个层级候选集，定义为 {conv3×3、conv1×3、conv3×1、identity}。由于 1×3 和 3×1 卷积具有不对称核和定向结构先验，它们可能有助于捕捉极端纵横比和旋转文本行的特征。此外，恒等运算符表示跳过一层，用于控制网络的深度和推理速度。 总之，因为总共有 L = L1+L2+L3+L4 个可搜索块，每个块有四个候选，所以搜索空间的大小为 $4 ^L$ 。
2）奖励函数：除了搜索空间之外，我们还设计了一个自定义的奖励函数 R(·)，用于搜索用于实时文本检测的网络架构。具体来说，给定一个模型 m，我们将奖励函数定义为：
- $R(m)=(IoU_{ker}(m)+\alpha IoU_{tex}(m))*(\frac{FPS(m)}{T})^w$
- 其中 $IoU_{ker}(m)$ 和 $IoU_{tex}(m)$ 分别表示预测文本核和文本区域的交集-合并 (IoU) 度量。α 是 $IoU_{tex}(m)$ 的系数，经验上设置为 0.5。此外，FPS(m) 表示在批量大小为 1 的 GPU 上测量的整个文本检测器的推理速度，T 是目标推理速度。 w 是一个平衡准确率和推理速度的超参数，按照惯例设置为 0.1 。
3）讨论：我们的方法与现有的 NAS 研究主要有以下三个不同点：
- 我们在搜索空间中引入了可重参数化的非对称卷积，它具有定向结构先验，可能有助于捕捉极端纵横比和旋转文本行的特征。而大多数现有的 NAS 方法采用 MBConv 作为块，它忽略了文本行的几何特征，并且对于 GPU 来说效率不够高。
- 我们提出了一个专门的奖励函数，它同时考虑了文本核和文本区域的性能，实现了对文本检测的有效架构搜索。而大多数以前的奖励函数都是为图像分类或一般物体检测而设计的，并不适用于任意形状的文本检测。
- 在本研究中，我们扩展了文本检测搜索框架 ProxylessNAS 。我们的目标是通过压缩文本检测管道中所有组件的时间成本来设计更快的实时文本检测器，而不是开发新的搜索算法。我们认为，是否需要重新设计用于文本检测的搜索算法是一个有趣的话题，可以在未来进一步探索。

D. Loss Function

我们的 FAST 的损失函数可以表述为：
- $L=L_{ker}+\alpha L_{tex}$
- 其中 Lker 和 Ltex 分别是文本核和文本区域的损失。按照常见做法，我们应用 Dice 损失来监督网络。因此，Lker 和 Ltex 可以表示如下：
- $L_{ker} = 1 −\frac {2 \sum _{x;y} P_{ker}(x; y) G_{ker}(x; y)} {\sum _{x;y} P_{ker}(x; y)^ 2 + \sum _{x;y} G_{ker}(x; y) ^2} ;\\ L_{tex} = 1 −\frac {2 \sum _{x; y} P_{tex}(x; y) G_{tex}(x; y)} {\sum _{x; y} P_{tex}(x; y) ^2 + \sum _{x; y} G_{tex}(x; y) ^2}$
其中 P(x; y) 和 G(x; y) 分别表示预测和真实值中位置 (x; y) 的值。此外，我们将在线困难示例挖掘 (OHEM) 应用于 Ltex，以忽略简单的非文本区域。α 平衡了 Lker 和 Ltex 的重要性，在我们的实验中将其设置为 0.5。

EXPERIMENTS

A. Datasets

Total-Text 是一个具有挑战性的数据集，用于检测任意形状的文本，包括水平、多方向和弯曲的文本行。它包含 1,255 张训练图像和 300 张测试图像，所有图像均在单词级别用多边形标记。
CTW1500 也是一个广泛使用的任意形状文本检测数据集。它包含 1,000 张训练图像和 500 张测试图像。在这个数据集中，文本行用 14 个点作为多边形进行标记。
ICDAR 2015 是 ICDAR 2015 稳健阅读竞赛的挑战之一。它专注于自然场景中的多方向文本，包含 1,000 张训练图像和 500 张测试图像。文本行在词级别用四边形进行标记。
MSRA-TD500 是一个多语言数据集，包含多方向和长文本行。它有 300 张训练图像和 200 张测试图像。根据先前的研究，我们将 HUST-TR400 的 400 张图像作为训练数据。
IC17-MLT 是一个多语言数据集，包含 7,200 张训练图像、1,800 张验证图像和 9,000 张测试图像。在此数据集中，文本行使用单词级四边形进行注释。

B. Implementation Details

1）训练设置：遵循以前的方法，我们在 IC17-MLT 上对模型进行了 300 次预训练，其中图像被裁剪并调整为 640×640 像素。然后，我们在 Total-Text 上对模型进行 300 次微调，在其他三个数据集上进行 600 次微调。在我们的实验中，当短边为 640 像素时，扩张大小 s 设置为 9。所有模型均由 Adam 优化器在 4 个 1080Ti GPU 上以批量大小 16 进行优化。我们采用“多边形”学习率计划，初始学习率为 1×10−3。训练数据增强包括随机缩放、随机裁剪、随机翻转和随机旋转。
2）推理设置：在推理阶段，我们将图像的短边缩放为固定大小并报告每个数据集上的性能。为了公平比较，我们评估所有测试图像并计算平均速度。除非明确说明，否则我们的主要结果是在一台 1080Ti GPU 上使用批处理大小 1 进行测试的。当使用 TensorRT 加速推理时，我们采用 V100 GPU 而不是 1080Ti 来部署我们的模型，因为 1080Ti GPU 不支持半精度（FP16）推理。
3）NAS 设置：我们扩展了广泛使用的 ProxylessNAS 以用于文本检测的架构搜索。在搜索过程中，我们考虑总共 L = 36 个可搜索块。按照将特征图大小减半时将通道数量加倍的常见做法，我们将 C1、C2、C3、C4 分别设置为 64、128、256 和 512。我们将搜索 TextNet-T、-S 和 -B 的目标推理速度 T 分别设置为 100、80 和 60 FPS。为了保持泛化能力，我们以 IC17-MLT 作为训练集，并构建了一个验证集，该验证集包含 ICDAR 2015 和 Total-Text 的训练图像。整个网络经过 200 个 epoch 的训练和搜索，在 1080Ti 上大约需要 200 个 GPU 小时。

C. Ablation Study and Analysis

1）搜索到的架构：如图 5 所示，我们绘制了 TextNet-T/S/B 的搜索到的架构，从中我们可以得出以下观察结果：
- 非对称卷积是我们 TextNet 中的主要运算符，它有助于以较高的准确度和效率检测文本行。
- TextNet-T 和 TextNet-S 倾向于在深层阶段（第 3 阶段和第 4 阶段）堆叠更多卷积，而 TextNet-B 则更倾向于浅层阶段（第 1 阶段和第 2 阶段）。结果表明，在三个指定速度约束（即 100、80 和 60 FPS）下，TextNet 的堆叠规则有所不同，并表明源自手工网络设计的常见策略（即在第 3 阶段堆叠大多数层）对于实时文本检测来说可能不是最优的。
2）所提组件的效果：我们在表 I 中展示了每个所提组件的效果。为了公平比较，所有模型均在 IC17-MLT 上进行预训练，并在 Total-Text 或 ICDAR 2015 上进行微调。与配备 ResNet18 和基于 CPU 的后处理像素聚合的基线相比，我们的 FAST-R18 用 GPU 并行文本扩张取代了后处理，在检测性能相当的情况下实现了更好的效率。此外，我们用 TextNet-B 替代了 ResNet18 主干，这进一步提高了性能和效率，并减少了参数数量。
- 表一我们快速提出的每个组件的消融研究。TOTAL-TEXT 和 ICDAR 2015 中图像的短边分别设置为 640 和 736 像素。
3）扩张尺寸的影响：在本实验中，我们基于我们的 FAST-R18 模型研究了扩张尺寸 s（等于腐蚀尺寸）的影响。我们将 Total-Text 和 ICDAR 2015 中图像的短边分别缩放为 640 和 736 像素。如表 II 所示，当扩张尺寸太小时，两个数据集上的 F 度量都会下降。根据经验，我们默认将扩张尺寸 s 设置为 9。请注意，如果短边（表示为 S）的尺寸发生变化，则扩张尺寸 s 应按比例更新以获得最佳性能：
- 表二：侵蚀/扩张尺寸 s 的消融研究。根据这些结果，我们在实验中默认将侵蚀/扩张尺寸 s 设置为 9
- $s_{new}=Round(S_{new}*s_{default}/S_{default})$
- 其中，Round(·)为对小数部分进行四舍五入的函数。例如，当训练时，短边固定为800像素而不是640像素，我们根据公式（5）将扩张尺寸s设置为11。
4）与手工制作网络的比较：我们首先将我们的 TextNet 与具有代表性的手工制作主干网络（例如 ResNets 和 VGG16 ）进行比较。为了公平比较，所有模型首先在 IC17-MLT 上进行预训练，然后在 Total-Text 上进行微调。如图 6 所示，与以前的手工制作模型相比，所提出的 TextNet 模型在准确率和推理速度之间实现了更好的平衡。此外，值得注意的是，我们的 TextNet-T、-S 和 -B 分别只有 6.8M、8.0M 和 8.9M 个参数，比 ResNets 和 VGG16 更高效地利用参数。这些结果表明 TextNet 模型对于 GPU 设备上的文本检测非常有效。
- 图 6. Total-Text 数据集上不同主干的文本检测 F 度量和推理速度，其中我们将图像的短边缩放到 640 像素。我们的 TextNet 模型明显优于现有的手工制作和自动搜索网络。
5）与自动搜索网络的比较：在这里，我们将 TextNet 与代表性的自动搜索主干网络进行比较。为了公平比较，所有模型都在 IC17-MLT 上进行了预训练，并在 Total-Text 上进行了微调。如图 6 和表 III 所示，我们的 TextNet 模型在准确度和推理速度方面优于现有的搜索网络，包括 Proxyless-GPU 、OFANet-12ms 、MobileNetV3 、GENet-Small 和 EfficientNet-B0 。具体来说，TextNet-S 以 85.3 FPS 的速度实现了 85.4% 的 F 测量值，比 OFANet12ms 准确率高 1.2%，速度快 1.5 倍。 TextNet-B 以 67.5 FPS 的速度获得 86.4% 的 F 值，比 EfficientNet-B0 快 1.7 倍，同时将检测性能提高了 0.8% 的 F 值。主要原因是这些网络主要用于图像分类，而对其他任务的泛化能力不够强。因此，设计用于文本检测的搜索空间和奖励函数是有意义且必要的。
- 表三在 Total-TEXT 数据集上，不同主干的文本检测 F 测度和推理速度，其中我们将图像的较短边缩放到 640 像素。我们的 TEXTNET 模型明显优于现有的手工制作和自动搜索网络。请注意，此处的 #PARAM 不包括分类头。

D. Comparison with State-of-the-Art Methods

1）曲线文本检测：为了展示 FAST 在检测曲线文本方面的优势，我们将其与 Total-Text 和 CTW1500 数据集上的现有最先进方法进行了比较，并在表 IV 和表 V 中报告结果。
- 表4：Total-TEXT 上的检测结果。我们方法的后缀表示较短边的大小。“EXT.”表示外部数据。“P”、“R”和“F”分别表示精度、召回率和 F 测度。
- 表5：CTW1500 上的检测结果。我们方法的后缀表示较短边的大小。“EXT.”表示外部数据。“P”、“R”和“F”分别表示精度、召回率和 F 测量值。
在 Total-Text 上，FAST-T-448 以 152.8 FPS 的速度获得 81.6% 的 F 值，这比所有以前的方法都要快。我们的 FAST-S-512 在 F 值方面比实时文本检测器 DB++R18 高出 1.6%（84.9% vs. 83.3%），运行速度提高了 2.4 倍。与 PAN++ 相比，FAST-B-640 快 29.2 FPS，而 F 值提高了 1.1%（86.4% vs. 85.3%）。值得注意的是，当采用更大的输入分辨率时，FAST-B-800 实现了 87.5% 的最佳 F 值，在 F 值方面比所有实时同类产品至少高出 1.5%，同时仍保持快速的推理速度（46.0 FPS）。
CTW1500 上也有类似的结果。例如，FAST-T-512 的推理速度为 129.1 FPS，至少比现有技术快 2.3 倍，而 F 值仍然非常有竞争力（81.5%）。我们方法的最佳 F 值为 84.2%，略高于强大的对手 DB+±R18 （84.2% vs. 83.9%），而我们的方法运行速度更快（66.5 FPS vs. 40.0 FPS）。我们在图 7(a)(b) 中展示了一些定性的弯曲文本检测结果，表明所提出的 FAST 可以准确定位具有复杂形状的文本行。
- 图 7. FAST 在 Total-Text 、CTW1500 、ICDAR 2015 和 MSRA-TD500 上的定性文本检测结果。这些结果表明，我们的 FAST 模型适用于各种复杂的自然场景，包括任意形状、多种语言和极端纵横比。
2）有向文本检测：我们评估了 FAST 在 ICDAR 2015 数据集上检测有向文本行的有效性。从表 VI 中，我们可以看到，我们最快的模型 FAST-T-736 达到 60.9 FPS，并保持了 81.7% 的竞争性 F 测量值。与 PAN++ 相比，FASTB-896 在 F 测量值上超过 PAN++ 3.2%（86.3% vs. 83.1%），并且效率更高（31.8 FPS vs. 28.2 FPS）。由于 ICDAR 2015 包含许多小文本行，以前的方法总是采用高分辨率图像来确保检测性能。在此设置下，FAST-B-1280 实现了 87.1% 的 F 测量值，与 DB-R50 和 DB+±R50 （87.1% vs. 87.3%）相当。此外，与 PSENet 相比，该模型的 F 值高出 1.4%（87.1% vs. 85.7%），运行速度提高 9.8 倍。图 7© 显示了一些有向文本检测的定性结果。
- 表 VI ICDAR 2015 上的检测结果。我们方法的后缀表示较短边的大小。“EXT.”表示外部数据。“P”、“R”和“F”分别表示精度、召回率和 F 测量值。
3）长直文本检测：FAST 对于长直文本检测也非常稳健。如表 VII 所示，在 MSRA-TD500 数据集上，FAST-T-736 以 137.2 FPS 的速度运行，F 测量值为 84.5%，比之前所有实时检测器都更高效。例如，它分别比 PAN 和 DB-R18 快 4.5 倍和 2.2 倍，同时保持了更高的检测 F 测量值。此外，FAST-S-736 以 72.0 FPS 的速度实现了 86.4% 的 F 测量值，比 DB++R18 高出 1.3%（86.4% vs. 85.1%），并且运行速度快 17 FPS（72.0 FPS vs. 55.0 FPS）。 FAST-B-736 的 F 度量值为 87.3%，略优于 DB+±R50 ，但效率明显更高（56.8 FPS vs. 29.0 FPS）。我们在图 7（d）中展示了一些定性的直文本检测结果。
- TABLE VII ， MSRA-TD500 上的检测结果。我们方法的后缀表示较短边的大小。“EXT.”表示外部数据。“P”、“R”和“F”分别表示精度、召回率和 F 测量值。

E. Efficiency Analysis

1）参数：在表 VIII 中，我们将提出的 FAST 的参数数量与代表性的任意形状文本检测器进行了比较。如图所示，我们的检测器 FAST-T、FASTS 和 FAST-B 分别具有 8.5M、9.7M 和 10.6M 个参数，它们比以前的实时文本检测器（例如 PAN（12.2M）和 DBR18 （13.8M））具有更高的参数效率。
- 表 VIII 使用最新方法对全文本进行效率分析。“F”表示 F 度量。“SCALE”表示测试图像的比例，其中“L：”表示长边固定，“S：”表示短边固定，“H：”表示高度固定。 “BS”是 BATCH SIZE 的缩写。“#PARAM”表示检测器的参数总数。PYTORCH FPS 是用 BATCH SIZE 1 来测量的。
FLOPs：我们在表 VIII 中报告了不同文本检测器的总 FLOPs。虽然我们主要关注的是推理速度而不是 FLOPs，但我们的 FAST 模型也比以前的方法有优势。例如，在 Total-Text 数据集上，我们的 FAST-T-512 具有与 DB-R18 类似的 FLOP（29.5G vs. 30.0G），将 F 度量从 82.8% 提高到 83.5%。此外，FAST-B-640 以 64.0G FLOP 实现了 86.4% 的 F 度量，比具有类似 FLOP（64.0G vs. 65.4G）的 PAN-640 高出 1.4 个百分点（86.4% vs. 85.0%）。与 PSENet 相比，我们的 FASTB-800 实现了更具竞争力的 87.5% F 度量性能，但其计算成本不到 PSENet 的三分之一（100.1G 对 345.9G）。
3）推理速度：在本实验中，我们采用专为工业部署设计的推理引擎 TensorRT 来进一步加速我们的 FAST 模型。由于 1080Ti GPU 不支持半精度 (FP16) 推理，我们考虑了两种额外设置：(1) V100 + PyTorch (FP32)，批处理大小为 1；(2) V100 + TensorRT (FP16)，批处理大小从 1 到 8。
如表八所示，在使用 PyTorch 和 V100 GPU 时，我们最快的模型 FAST-T-448 达到了 187.0 FPS 的速度。通过 TensorRT 优化，它可以进一步加速到 634.7 FPS（批处理大小 = 8），比其 PyTorch 实现（批处理大小 = 1）快 3.4 倍，这证明了 FAST 在实际应用中的效率。

F. Qualitative Results

在本节中，我们展示了所提出的 FAST 在四个具有挑战性的数据集上的一些定性文本检测结果，包括 Total-Text（见图 7（a））、CTW1500（见图 7（b））、ICDAR 2015（见图 7（c））和 MSRA-TD500（见图 7（d））。这些结果表明，我们的 FAST 模型适用于各种复杂的自然场景，包括任意形状、多种语言、极端纵横比等。

CONCLUSION

在本研究中，我们提出了一种更快的任意形状文本检测器 FAST。为了实现高效率，我们提出了一种极简内核表示 (MKR)，以及 GPU 并行后处理——文本扩张，使我们的模型可以完全在 GPU 上运行。此外，我们设计了一个专门针对文本检测的搜索空间和奖励函数，并搜索了一系列对文本检测友好的高效骨干网络（即 TextNet）。在几个具有挑战性的数据集上进行的大量实验表明，配备这两种设计，我们的 FAST 在检测性能和推理速度之间实现了比以前更好的平衡。我们希望我们的方法可以成为文本相关实时应用的基石。