【读点论文】Arbitrary Shape Text Detection via Boundary Transformer 任意形状的文本边界检测，边界能量损失约束细化边界-CSDN博客

本文链接：https://blog.csdn.net/weixin_43424450/article/details/141029368

Arbitrary Shape Text Detection via Boundary Transformer

Abstract

在任意形状文本检测中，定位准确的文本边界是一项艰巨而艰巨的任务。现有的方法通常受到间接文本边界建模或复杂后处理的困扰。在本文中，我们系统地提出了一个统一的、通过边界学习实现的任意形状文本检测从粗到细的框架，该框架无需后处理即可准确高效地定位文本边界。在我们的方法中，我们通过创新的迭代边界 transformer 以粗到细的方式显式地对文本边界进行建模。通过这种方式，我们的方法可以直接获得准确的文本边界，并放弃复杂的后处理以提高效率。
具体来说，我们的方法主要由特征提取主干、边界提议模块和迭代优化的边界 Transformer 模块组成。由多层扩张卷积组成的边界提议模块将预测生成粗边界提议的重要先验信息（包括分类图、距离场和方向场），同时指导边界 Transformer 的优化。边界 Transformer 模块采用编码器-解码器结构，其中编码器由具有残差连接的多层 Transformer 块构成，而解码器是简单的多层感知器网络 (MLP)。在先验信息的指导下，边界 Transformer 模块将通过迭代边界变形逐渐细化粗边界提议。此外，我们提出了一种新的边界能量损失 (BEL)，引入了能量最小化约束和能量单调递减约束，以进一步优化和稳定边界细化的学习。在公开和具有挑战性的数据集上进行的大量实验证明了我们的方法具有最先进的性能和良好的效率。代码和模型可在以下网址获得：https://github.com/GXYM/TextBPN-Puls-Plus。
论文地址：[2205.05320] Arbitrary Shape Text Detection via Boundary Transformer (arxiv.org)
用于解决任意形状文本检测问题，特别是在文本边界定位方面的挑战。提出了一种粗到细的统一框架，通过边界学习来准确高效地定位任意形状的文本边界，无需复杂的后处理。设计了一个创新的迭代边界变压器模块，用于逐步精炼文本边界。提出了一种新型边界能量损失（BEL），用于优化和稳定边界变形的学习过程。采用包含多层膨胀卷积的边界提案模块来生成粗略的边界提案，并为边界变压器提供先验信息。边界能量损失：引入能量最小化约束和能量单调递减约束来优化边界精炼过程。

INTRODUCTION

场景文本检测是计算机视觉中一项必不可少的基本任务，因为它是各种文本相关应用（如文本识别、文本检索、文本视觉问答和在线教育）中的重要步骤。得益于基于 CNN 的对象检测和实例分割的快速发展，场景文本检测取得了重大进展，并且对于规则形状或长宽比的文本取得了令人印象深刻的性能。作为文本检测中最具挑战性的任务之一，任意形状文本检测越来越受到研究界和工业界的关注。
与使用边界框的一般对象检测不同，任意形状文本检测应探索每个单独文本的不规则边界。基于连通分量 (CC) 的方法使用顺序分量或局部框对文本实例进行建模。基于分割的方法在像素级掩码预测处对任意形状的文本实例进行建模，并使用掩码边缘检测文本边界。基于 CC 和基于分割的方法都从局部视角（局部分量或像素）对文本实例进行建模，而不是直接对文本边界进行建模。因此，它们往往忽略文本边界整体布局的全局几何分布，从而导致两个主要问题：一个问题是它们由于文本区域内的同质纹理而对噪声敏感；另一个问题是它们需要依赖复杂而启发式的后处理来生成准确的文本边界。
最近，提出了多种基于轮廓的解决方案，用于直接检测任意形状文本的边界，并取得了良好的效果。ABCNet 和 FCENet 分别使用贝塞尔曲线和傅里叶曲线对文本实例轮廓进行建模，通过渐进近似策略有效地回归闭合轮廓。TextRay 在极坐标系统中提出了一个单次框架，用于预测几何参数，并通过 NMS 后处理步骤一次性输出简单多边形检测。其他一些方法采用自上而下的检测框架，通过 ROI 操作回归文本轮廓上的关键点。如 [Progressive contour regression for arbitrary-shape scene text detection] 所述，这些方法在一个阶段只能感知具有复杂几何布局的场景文本，导致定位不准确。然而，这与人类视觉系统不一致，因为人类视觉系统通常需要多次观察。因此，对于任意形状的文本检测，由粗到细的框架可能更为合理。
PCR 基于自上而下的检测框架，设计了一种由粗到细的流程，并采用了渐进轮廓回归策略。具体来说，它首先将水平提案的全局轮廓回归到有向提案的角点。然后通过边界变形将有向提案的轮廓迭代回归为任意形状的轮廓。尽管 PCR 取得了不错的效果，但自上而下结构的效率总是受到过于复杂的流程和耗时的 NMS 过程的影响，而边界变形网络严重影响了边界检测的准确性。
在本文中，我们系统地提出了一个统一的、通过边界学习实现的由粗到精的任意形状文本检测框架，该框架无需后处理即可准确高效地定位文本边界。在我们的方法中，我们通过一种创新的迭代边界 Transformer 以由粗到精的方式显式地对文本边界进行建模。这样，我们的方法可以直接生成准确的文本边界，并放弃复杂的后处理以提高效率。
具体来说，我们的方法主要由特征提取主干、边界提议模块和迭代优化的边界 Transformer 模块组成。由多层扩张卷积组成的边界提议模块将计算重要的先验信息（包括分类图、距离场和方向场），用于生成粗边界提议，同时指导边界 Transformer 的优化。如图 1 (a) 和 © 所示，粗边界提议可以粗略地定位文本并分离相邻文本，因为它们总是比其边界注释更细。为了细化粗提议，我们提出了一个边界 Transformer 模块，将顶点偏移从粗边界提议回归到实际文本边界，如图 1 © 所示。
图 1. 通过边界变换器细化文本边界的图示。（a）生成粗文本边界；（b）在边界上均匀采样；（c）细化粗文本边界。绿色轮廓为注释。
边界 Transformer 模块采用编码器-解码器结构，其中多层 Transformer 模块构成具有残差连接的编码器，解码器是简单的多层感知器网络（MLP）。在先验信息的指导下，边界 Transformer 模块将通过迭代边界变形逐渐细化粗边界提案。此外，我们提出了一种新的边界能量损失（BEL），由能量最小化约束和能量单调递减约束组成，以进一步优化和稳定边界细化的学习。
本研究是我们初步会议版本 TexBPN 的扩展版本，它包含以下特点：
- i）我们系统地提出了一个通过边界学习实现的统一的由粗到细的框架，用于任意形状的文本检测。
- ii）我们提出了一个强大而高效的边界 Transformer 模块用于边界变形。边界 Transformer 模块具有更强的长距离关系建模能力，这使得它对控制点数量的变化更加稳健。
- iii）我们提出了一种新的边界能量损失（BEL）来优化网络训练。将点匹配损失和边界能量损失结合起来将进一步稳定边界变形的学习，提高训练对噪声的鲁棒性。
- iv）我们还采用了轻量级主干网络（ResNet-18）和增强型主干网络（带可变形卷积的 ResNet-50）来验证我们方法的最优性能和良好的效率。
- v）我们在另外两个新的更大的数据集（即 ICDAR-ArT 和 ICDAR-MLT2017）上进行了实验，以进一步验证性能。我们还增加了更多的探索实验和直观的比较。
总而言之，本文的主要贡献可以概括为四点：
- 我们系统地提出了一个通过边界学习的统一的由粗到细的框架来检测任意形状的文本，该框架可以准确有效地定位文本边界而无需后处理。
- 我们提出了一种创新的边界 Transformer 模块，以迭代方式自适应地逐步细化粗文本边界。
- 我们提出了一种新颖的边界能量损失（BEL）来进一步优化和稳定迭代边界细化的学习。
- 在公开数据集上进行的大量实验证明了我们的方法的最先进的性能和良好的效率。
本文的其余部分组织如下：第二部分概述了相关工作。第三部分详细阐述了我们的工作。在第四部分中，我们展示了一些实验结果和分析。最后，我们在第五部分总结了我们的工作。

RELATED WORK

A. Regression-based Methods

基于回归的方法 总是使用针对文本实例的字级和行级先验知识来修改基于框回归的对象检测框架。然而，场景文本通常会受到具有各种长宽比的任意方向的影响。为了解决这个问题，TextBoxes 和 TextBoxes++ 使用一系列具有不同长宽比的锚点来覆盖不同长度的文本。与这些基于锚点的方法不同，无锚点方法（例如 EAST 、MOST 和 DDR ）直接将从边界或顶点到当前点的偏移量回归到文本检测。LOMO 引入了一个迭代细化模块，以迭代细化基于边界框提议的直接回归的文本定位。 HAM 设计了一种隐藏的锚点机制，将基于锚点的方法的优点融入到无锚点方法中。虽然基于回归的方法在四边形文本检测中取得了良好的效果，但它们往往不能很好地适应任意形状的文本检测。

B. Connected Component-based Methods

基于连通分量 (CC) 的方法通常首先检测单个文本部分或字符，然后进行链接或组后处理过程以生成最终文本。SegLink++ 采用具有最小生成树的实例感知组件分组来实现任意形状的文本检测。CRAFT 检测字符级文本并探索字符之间的亲和力以实现最终检测。TextDragon 只是根据几何关系对检测到的局部文本区域进行分组。 [Deep relational reasoning graph network for arbitrary shape text detection] 采用 CNN 来预测文本组件的几何属性，并引入图卷积网络 (GCN) 来学习和推断不同文本组件之间的链接关系。虽然基于 CC 的方法的灵活表示更适合任意形状的文本检测，但检测性能和效率通常会受到文本组件聚类的复杂后处理的影响。

C. Segmentation-based Methods

基于分割的方法主要受到语义分割的启发，通过使用像素掩码对文本实例进行隐式编码来实现文本检测。在 PSENet 中，采用渐进式尺度扩展算法来扩展预定义的核，以融合不同尺度的分割图。PAN 和 LSAE 通过学习像素的嵌入向量来拉动相同文本的像素嵌入并推动不同文本的像素嵌入。TextField 采用深度方向场来链接相邻像素并生成候选文本实例。DB 简化了具有可微二值化的分割网络中文本检测的后处理。在这些方法中，分割精度显著决定了检测到的边界的质量。

D. Contour-based methods

基于轮廓的尝试直接对文本边界进行建模，以检测任意形状的文本。 ABCNet 和 FCENet 使用曲线建模（贝塞尔曲线和傅里叶曲线）对文本实例轮廓进行建模，可以通过逐步近似拟合任何闭合轮廓。 TextRay 在极坐标系统中制定文本轮廓，并提出一个单次无锚框架来预测几何参数并输出简单多边形检测。 PCR 提出了一种基于渐进轮廓回归方法的自上而下的检测框架来检测任意形状的场景文本。与 PCR 类似，其他一些方法也采用自上而下的检测框架，在文本提案中回归文本轮廓上的关键点。 与基于分割的方法相比，在性能和速度方面仍有很大的发展空间。

PROPOSED METHOD

A. Overview

如下图所示，我们的方法提出了一个统一的由粗到精的框架，主要由特征提取主干、边界提议模块和迭代优化的边界变换器模块组成。
- 图 2. (a) 我们的方法的框架。我们的框架由三部分组成：特征提取、生成粗边界和细化文本边界。(b) 边界提议模块的结构。© 边界 Transformer 模块的结构。
图 3 说明了我们用于特征提取的主干的架构。为了保持空间分辨率并充分利用多级信息，我们采用了一种多级特征融合策略（类似于 FPN）。由多层空洞卷积组成的边界提议模块使用共享特征执行文本像素分类，生成距离场和方向场。然后，我们使用这些信息来生成粗边界提议。每个边界提议由 N 个控制点组成，代表一个可能的文本实例。为了细化粗提议，我们使用边界 Transformer 模块执行迭代边界变形，以在先验信息的指导下细化文本边界。
- 图 3. 我们用于特征提取的主干架构。Fs 表示共享特征，Fp 表示先验信息（即分类图、距离场和方向场）。

B. Boundary Proposal

边界提议模块由多层扩张卷积组成，包括两个具有不同扩张率的 3×3 卷积层和一个 1×1 卷积层，如图 2 (b) 所示。它将使用从主干网络提取的共享特征来生成分类图、距离场图和方向场图。
与其他文本检测方法类似，分类图包含每个像素（文本 / 非文本）的分类置信度。与 [Textfield]、[Super-bpd] 中一样，方向场图 (V) 由二维单位向量 $ (\bar x,\bar y) $ 组成，该向量表示边界内每个文本像素到边界上最近像素的方向（像素到边界）。对于文本实例 T 内的每个像素 pi，我们将在文本边界上找到其最近的像素 bi。然后，从文本像素 pi 指向 bi 的二维单位向量 V(Pi) 可以表示为
- $\mathcal{V}(p_i)=\begin{cases} \overrightarrow{p_ib_i}/|\overrightarrow{p_ib_i}| ,&p_i\in T\\ (0,0),& p_i\notin T \end{cases}$
- 其中 $|\overrightarrow{b_ip_i} |$ 表示 bi 与文本像素 pi 之间的距离。对于非文本区域（ $p_i \notin T$ ），我们用 (0, 0) 表示这些像素。单位向量 V(pi) 直接编码 pi 在 T 内的近似相对位置，同时突出显示相邻文本实例之间的边界。此外，它还为边界变形提供方向信息。
对于边界变形，相对位置距离信息与方向信息同样重要。本文中，距离场图（D）为归一化距离图，文本像素pi到文本边界上最近像素bi的归一化距离定义为
- $\mathcal{D}(p_i)=\begin{cases} |\overrightarrow{p_ib_i}|/L ,&p_i\in T\\ 0,& p_i\notin T \end{cases}$
- 对于非文本区域 $（p_i\in T）$ ，我们用 0 表示这些像素的距离。L 表示像素 pi 所在的文本实例 T 的尺度，定义为
- $max(\{|\overrightarrow{p_ib_i}|\ |p_i ∈ T\})$
- 其中 L 是文本实例 T 中文本像素 pi 到最近边界像素 bi 的最大距离。D(pi) 可以直接编码 pi 在 T 内部的相对距离，进一步突出相邻文本实例之间的边界。此外，它还为边界变形提供了相对距离信息。
利用距离场图 (D)，我们首先通过应用阈值 (thd) 对距离场进行二值化来生成候选边界提案，如图 4 (b) 所示。然而，这些候选边界提案不可避免地包含错误检测。因此，我们根据分类图计算每个候选边界提案的置信度得分 (ths)。最后，我们通过删除置信度得分 (ths) 较低的候选提案来获得粗边界提案，如图 4 © 和 (d) 所示。
- 图 4. 边界提案生成示意图。我们首先通过应用阈值 (thd) 对距离场进行二值化来生成候选边界提案，然后筛选出置信度得分较低的候选边界提案。

C. Boundary Transformer

在我们的方法中，我们通过将粗边界提案转换为精确的文本边界来执行任意形状的文本检测。具体来说，我们学习以迭代方式基于粗边界提案预测指向文本边界的每个顶点的偏移量。对于每个表示为封闭多边形的粗边界提案，我们将均匀采样 N 个控制点以方便批处理，如图 1 所示。这些控制点的序列不仅包含序列上下文，还包含拓扑上下文（例如形状和空间分布）。为了充分利用和挖掘这两个上下文来细化粗文本边界，我们提出了一个边界 Transformer 模块来有效地执行特征学习并预测指向文本边界的精确每个顶点的偏移量。
令 $c_i = [x_i , y_i ] ^T$ 表示第 i 个控制点的位置， $P = \{c_0 , ..., c_i , ..., c_{N−1} \}$ 为所有控制点的集合。对于具有 N 个控制点的边界提议，我们首先为每个控制点构建特征向量。控制点 ci 的输入特征 fi 是 32 维共享特征 Fs 和 4 维先验特征 Fp（例如分类图、距离场和方向场）的串联。因此，控制点的特征是从 F 中的相应位置提取的： $f_i = concat\{F_s(x_i , y_i), F_p(x_i , y_i)\}$ 。这里，Fs(xi , yi) 和 Fp(xi , yi) 通过双线性插值计算。
在获得边界提案的特征矩阵后，采用一种新颖的边界 Transformer 模块来高效地进行特征学习，并迭代地细化粗边界提案。边界变换器模块采用编码器-解码器结构，其中编码器由三层组成，其中变压器块配备残差连接，解码器是一个简单的多层感知器网络（MLP），如图 2（c）所示。编码器将边界提案的特征图（B×N×36）编码为嵌入特征图（B×N×128）。每个编码器层可以表示为
- $X^{'} = X \oplus T r an s Bl oc k (X)$
- 其中 X（大小：N ×C）表示边界提议的特征矩阵；“⊕”表示加法运算。每个 Transformer 块都有一个标准架构，由一个多头自注意力和一个多层感知器网络（MLP）组成，如图 2（c）所示。在我们的方法中，我们需要学习相对的每个顶点偏移，因此基于图像中像素位置或边界提议中控制点的序列顺序的绝对位置编码是不必要的。我们大量的实验还表明，位置编码不能提高检测到的边界的准确性。因此，我们在边界 Transformer 中删除了位置编码。
我们的边界变换器模块的解码器由三层感知器网络和由 ReLU 激活的 1×1 卷积组成。它将学习预测控制点和目标点之间的偏移量 (Y)。从数学上讲，偏移量 Y 的预测可以表示为
- $Y = Decoder(Conv_{1×1}(X)||X''' ), (5)$
- 其中 Conv1×1 表示具有 128 维的一层 1×1 卷积层；运算符 || 表示沿特征维度的矩阵串联；X ′′′ 表示三个编码器层之后的特征图；Y 是边界提案的每个顶点偏移量的序列。为了细化文本边界，我们使用边界变换器模块迭代地执行边界变形，如图 2 所示。值得注意的是，为了确保模型训练的收敛性，每个顶点预测的偏移量在每次迭代中被限制为不超过 16 像素距离。

D. Boundary Energy Loss

受主动轮廓模型 [Active contour with a tangential component] 的启发，我们提出了一种新的边界能量损失 (LE) 来最小化边界能量，从而进一步优化和稳定边界变形的学习。边界能量损失包括单个边界变形的能量最小化约束 (Lbe) 和边界迭代细化的能量单调递减约束 (Lie)。因此，边界能量损失 (LE) 是 Lbe 和 Lie 的总和，如下所示
- $L_E = L_{be} + L_{ie}$
- 为了避免额外的参数，在我们的方法中，我们将距离场视为能量场，如图 5 所示。因此，控制点 ci 的能量等于距离场中其对应的距离值，即 E(ci) = D(ci)。边界的能量定义为边界内所有控制点能量的总和，如下所示
- $E(P)=\sum^N_{i=1}E(c_i)$
- 能量最小化约束 (Lbe) 在训练中强制沿能量减少方向进行边界优化。Lbe 定义为
- $L_{be} = \frac1 T\sum_{P∈T} E(P) =\frac 1 T \sum _{P ∈T}\sum^ N_{i=1} E(c_i),$
- 能量单调递减约束（Lie）要求与当前迭代相关的预测边界的能量值低于前一次迭代，从而迫使预测具有更高的准确率。Lie 定义为
- $L_{ie}=\frac1T\sum_{p\in T}max(0,E(p)^i-E(P)^{i-1})$
- 其中， $E(P)^ i$ 表示与当前迭代相关的预测边界的能量值， $E(P) ^{i−1}$ 表示与上一次迭代相关的预测边界的能量值。 $E(P) ^0$ 是边界提议的能量值。

E. Optimization

我们的方法的总损失 L 可以表示为
- $L=L_{BP}+\frac{\lambda*L_{BT}}{1+e^{(i-eps)/eps}}$
- 其中 $L_{BP}$ 是边界提议的损失， $L_{BP}$ 是自适应边界 Transformer 的损失；eps 表示训练的最大周期，i 表示训练的第 i 个周期。在我们的实验中，λ 设置为 0.1。在等式 10 中，LBP 计算为
- $L_{BP} = L_{cls} + α ∗ L_D + β ∗ L_V$
- 其中 Lcls 是像素分类的交叉熵损失，LD 是距离场的 L2 损失。LD 采用 OHEM ，其中负样本和正样本的比例设置为 3:1。为了平衡 LBP 中的损失，权重 α 设置为 3，权重 β 设置为 0.5。与 [Super-bpd] 类似，LV 由方向场 V 的 L2 范数距离和角度距离组成：
- 其中 Ω 表示图像域；像素 p 处的权重 $\sqrt {|GT_p|})$ 与包含 p 的真实片段 GTp 的大小的平方根倒数成正比。
$L_{BT}$ 由点匹配损失 LP 和边界能量损失 LE 组成。在我们的方法中，文本边界将被迭代细化。因此，边界变换器 (LBT) 的总损失计算为
- $L_{BT} =\frac 1 m \sum ^m _{i=1} (L_E(i) + L_P (i))$
- 其中 m 表示迭代次数；LP(i) 和 LE(i) 分别捐赠第 i 次迭代中的点匹配损失和边界能量损失。
在我们的方法中，控制点的预测 (P = {c0 , …, ci , …, cN−1 }) 和真实值 (Pˆ = {cˆ0 , …, cˆi , …, cˆN−1 }) 具有相同的大小和相同的顺序（逆时针）。P 和 Pˆ 的匹配损失定义为
- 其中 N 是控制点的数量。因此，点匹配损失（LP）定义为
- $L_p=\frac1T\sum_{p\in T}L(p,\hat p)$
- 其中 T 表示图像中的所有文本实例；P 表示文本实例 T 的控制点集。

EXPERIMENTS

A. Datasets

Total-Text：包含 1,255 个训练图像和 300 个复杂测试图像，包括带有多边形和字级注释的水平、多方向和弯曲文本。
CTW-1500：包含 1,000 张训练图像和 500 张测试图像，弯曲文本实例由具有 14 个顶点的多边形注释。
MSRA-TD500：包含500张训练图像和200张测试图像，包括英文和中文文本，包含多语言、多方向的长文本。
ICDAR-ArT：大规模多语言任意形状场景文本检测数据集，包括 5,603 张训练图像和 4,563 张测试图像。文本区域由具有自适应数量关键点的多边形标注。
ICDAR-MLT17：包含 7,200 张训练图像、1,800 张验证图像和 9,000 张测试图像，其中包含用四边形注释的多语言（9 种语言）文本。
SynthText：包含 800k 张由自然图像与人工文本混合生成的合成图像，均经过字级注释。

B. Implementation Details

采用 ResNet 作为主干网络。在实验中，我们随机裁剪文本区域并将其调整为 640×640，以使用 660 个 epoch 训练模型（MSRA-TD500 除外，使用 1200 个 epoch）。“ResNet-50-1s” 的小批量设置为 12，“ResNet-18-4s” 的小批量设置为 48。使用 Adam 作为优化器。如果没有预训练，初始学习率设置为 0.001，每 50 个 epoch 衰减 0.9。在一些实验中，我们在 ICDAR-MLT17 模型上对我们的模型进行了微调，以进行更公平、更全面的比较。在微调中，初始学习率为 0.0001，每 50 个 epoch 衰减 0.9。数据增强包括随机旋转一定角度（以（-30◦，30◦）内的高斯分布采样）、随机裁剪和随机翻转。在推理中，我们保持测试图像的纵横比，然后调整大小并填充为相同大小以进行测试。代码使用 PyTorch 1.7 和 Python 3 实现。训练在单个 GPU（RTX-3090）上进行，测试在单个 GPU（GeForce RTX-2080）上进行，带有 Intel Xeon Silver 4108 CPU @ 1.80GHz。
值得注意的是，“Ext”表示使用额外数据进行预训练，“Syn”表示 SynthText，“MLT”表示 ICDAR-MLT17，“MLT+”表示 ICDAR-MLT17 和额外数据集，“ArT−”表示它从 ICDAR-ArT 中选择数据集（不包括 Total-Text 或 CTW-1500 的测试集）。“R”、“P”和“F”分别代表召回率、准确率和 F 值。为了公平地比较检测速度，与 DB 类似，通过执行 50 次测试图像来评估速度，以排除额外的 IO 时间。

C. Exploration Experiment

在探索性实验中，我们只在相应的真实世界数据集上对模型进行了 660 次训练，没有进行任何预训练。采用 Adam 作为优化器，初始学习率为 0.001。其他训练设置与第 IV-B 节中的微调过程相同。在测试期间，我们将图像的两侧设置在 (640, 1024) 的范围内，同时保持其长宽比。然后，我们将测试图像填充到 1024×1024 并将其发送到网络进行处理。在所有探索性实验中，我们在同一数据集上使用固定阈值，即 Total-Text（thd=0.3，ths=0.85）和 CTW1500（thd=0.35，ths=0.825）。在我们的实验中，迭代次数默认设置为 3。
边界 Transformer 模块的有效性。为了验证所提出的边界变换器模块的有效性，我们在 Total-Text 和 CTW-1500 上进行了一些探索性实验。除非特别标记 BEL，否则在训练期间不使用边界能量损失 (BEL)。为了公平比较，我们使用相同的编码器和由 Relu 激活的三层 MLP。然后，我们与边界变形模块（即全连接网络 (FC)、循环神经网络 (RNN)、循环卷积网络 (CCN) 、图卷积网络 (GCN) 和自适应变形 (AD) 模块）进行了比较实验，以将其性能与所提出的边界变换器 (BT) 模块进行比较。
如表一所示，我们的边界 Transformer 模块在 Total-Text 和 CTW-1500 上与其他五种方法相比均取得了最佳性能。具体而言，边界 Transformer 模块在 Total-Text 上的 F 度量性能提升了 1.02%，在 CTW1500 上的 F 度量性能提升了 1.08%，均优于 GCN。与自适应变形模块相比，所提出的边界 Transformer (BT) 在 Total-Text 和 CTW-1500 上也实现了一致的性能提升。特别是在召回率方面，我们的边界 Transformer 模块在 Total-Text 上分别比自适应变形模块高出 0.58%，在 CTW-1500 上高出 0.5%。此外，由于采用了轻量级设计，我们的边界 Transformer 可以实现令人满意的效率。
- 在 Total-TEXT 和 CTW-1500 上进行变形模型消融实验。最佳得分以粗体突出显示。
控制点数量（N）的影响。这里，我们在没有边界能量损失的情况下进行实验，以验证不同控制点数量（N）的影响。控制点数量范围为 8 到 32，间隔为 4。如图 6 所示，我们可以发现，在低范围内，Fmeasure 的得分随着控制点数量的增加而快速增长。特别是，太少的控制点会导致性能大幅下降。这是因为当控制数太小时，检测边界通常无法正确覆盖整个文本。当 N 达到相对较高的值（例如 20）时，所提出的边界变换器的检测性能在 Total-Text（87%+ F 测量值）和 CTW-1500（84%+ F 测量值）上都趋于稳定。
- 图6. 控制点数（N）实验结果。蓝色实线表示边界 Transformer（BT）在Total-Text上的实验结果，蓝色虚线表示自适应变形（AD）在Total-Text上的实验结果。绿色实线表示边界 Transformer（BT）在CWT-1500上的实验结果，绿色虚线表示自适应变形（AD）在CWT-1500上的实验结果。
相比之下，自适应变形模块的检测性能趋于下降。控制点数量的增加意味着采样间距减小，图像中相邻的控制点更接近。然而，结合GCN和RNN的自适应变形模块采用固定的邻接矩阵，这将使其感受野变小，而控制点变得密集。因此，基于Transformer网络提出的边界Transformer在边界变形过程中对于长序列学习和建模比自适应变形模块更具优势。在我们的其他实验中，我们将控制点数量设置为20，以平衡检测性能和计算成本。
先验信息的影响。我们对 Total-Text 进行了消融研究，以验证先验信息（即分类图 (Cls)、距离场 (Dis) 和方向场 (Dir)）的影响。为了公平起见，边界能量损失 (BEL) 也未在训练中使用。详细结果列于表 II。根据表 II，当先验信息仅包含分类图时，我们的方法 (BT) 和自适应变形模块 (AD) 的性能都不令人满意。
- 对全文本上的分类图（CLS）、距离场（DIS）和方向场（DIR）的消融研究。
这是因为分类图无法避免相邻文本的粘连，并且所包含的信息不足以进行边界变形。当引入距离场时，性能将得到显着改善。具体而言，F 测量值对于 AD 提高了 5.45%，对于 BT 提高了 6.09%。方向场也可以为 AD 带来 1.55% 的 F 测量值，为 BT 带来 1.38% 的 F 测量值。此外，方向场带来的召回率提升更为明显（BT为1.51%，AD为1.33%），说明方向场对边界提案的扩展有正向影响。
迭代次数的影响。为了充分验证迭代次数的影响，我们将中间结果可视化，并进一步比较不同推理迭代次数的检测性能。如图7所示，随着迭代次数的增加，检测边界变得越来越准确。
- 图 7. 不同迭代的视觉结果。蓝色轮廓为粗边界提议，红色轮廓为迭代边界变换后的检测边界。
如表III所示，随着迭代次数的增加，检测性能逐渐提高，但推理速度逐渐下降。当迭代次数从3增加到4时，性能提升并不明显。
表3：CTW-1500 上不同迭代的实验结果。
考虑到效率和性能的平衡，我们在实验中默认将迭代次数设置为 3。与 AD 相比，BT 在所有迭代中都具有更好的检测性能。此外，BEL 可以用更少的迭代次数显著提高检测性能。通过参考表 III，我们观察到使用 BT 的每次额外迭代仅花费 2.5 毫秒，而主干网络则消耗大约 60 毫秒。因此，即使迭代三次，所需的总时间也只有 7.5 毫秒，这明显低于 PSENet 或 TextPMs 等其他方法复杂的后处理所需的时间。具体而言，PSENet 和 TextPMs 中的后处理大约需要 75 毫秒。因此，与这些后处理方法相比，我们的迭代细化效率明显更高。
边界能量损失 (BEL) 的影响。我们在 Total-Text 上进行了消融研究，以验证我们的 BEL 的有效性。如表 IV 所列，我们的方法通过同时使用方向场和边界能量损失实现了最佳性能。BEL 可以在训练中沿能量减少的方向强制进行边界优化。
- 全文本中边界能量损失（BLE）的消融研究。
但能量减小的方向也是方向场所指示的方向，因此单独使用BEL也能带来明显的性能提升（Fmeasure为1.3%），尤其是召回率（2.22%）。另外，BEL可以提高训练结果的稳定性。为了说明这一点，我们统计了从300个epoch到660个epoch训练好的模型的检测性能，并每5个epoch进行一次评估，共得到72组数据，然后分析这72组数据的频率分布直方图，如图8所示。根据图8可以看出，使用BEL后，训练好的模型的性能整体上得到了明显的提升。表3中的实验结果也验证了这一点。
- 图 8. 训练中使用或不使用 BEL 的检测性能 (Fmeasure) 的频率分布直方图。
不同分辨率特征图的影响。我们进行了实验来探索使用不同分辨率特征图F的影响，如表 V 所示。表 V 中的“1s”、“2s”和“4s”表示输出特征图F的宽和高分别为测试图像的1/1、1/2和1/4。从表V可以看出，随着输出特征图F的分辨率降低，检测性能会下降，但检测速度会明显提高。当F的分辨率降低到“4s”时，检测性能急剧下降（以Res18的Fmeasure为基准，下降了2.1%），尤其是召回率下降了4.13%。这是因为F的分辨率太低会导致一些小文本丢失。
- 不同分辨率特征图F在全文本上的实验结果。“RES50”表示以RESNET-50为骨干，“RES18”表示以RESNET-18为骨干。
值得注意的是，在我们的方法中，用于生成边界提案的连通区域的面积至少应该是控制点的数量。然而，我们使用 Res18（4s）的方法仍然实现了实时检测效率（32.5 FPS）和令人印象深刻的检测性能（F 测量为 84.62%），优于大多数最先进的方法，例如 DB 、FCENet 、TextRay 。
不同测试图像尺度的影响。我们进行了实验来探索不同尺度对测试图像的影响。我们将测试图像限制为不同的尺度并将其输入到网络进行处理。详细的实验结果列于表 VI。从表 VI 中我们可以发现，随着测试图像分辨率的降低，性能会下降，但检测速度却显著提高。
与 1024 尺度相比，使用 800 尺度会带来 1% 到 1.5% 的检测性能损失（F 测量值），并将检测速度提高约 4 到 5 FPS。当测试图像尺度减小到 800 并使用 Res18（4s）时，我们的方法的检测速度达到实时速度（35.3 FPS），而性能（F 测量值为 83.38%）仍然与其他最先进的方法具有竞争力。请注意，Res50（4s）的性能略低于Res18（4s），这可能是因为我们使用更大的批量大小在单个GPU上训练Res18（4s）。

D. Comparisons with State-of-the-art Methods

我们在五个标准基准上将我们提出的方法与其他方法进行了比较，其中包括三个曲线文本基准（Total-Text、CTW-1500 和 ICDAR-ArT）和两个长文本行的多语言和多方向基准（MSRA-TD500 和 ICDAR-MLT17）。
Total-Text。测试时，我们将图像的两侧设置在（640, 1024）范围内，同时保持其长宽比。阈值 thd 和 ths 分别设置为 0.325 和 0.85。定量结果列于表 VII。从表 VII 中，我们可以发现我们的方法（“Res50-1s-1024”）在没有任何预训练的情况下，F 测量值达到 87.52%，在 MLT17 上进行预训练后，F 测量值达到 88.46%。此外，使用轻量级主干网络（“Res18-4s”），我们的方法实现了实时检测速度（32.5 FPS），性能与 PCR（DLA34）（85.70% vs. 85.2% F 度量）和 FCENet∗ （85.70% vs. 85.8% F 度量）相当。
- 在 TOTAL-TEXT、CTW-1500 和 MSRA-TD500 上的实验结果。“EXT”表示使用外部数据集对模型进行预训练。 † 表示端到端场景文本识别。 ∗ 表示使用 RESNET50 和 DCN 作为主干的方法。最佳得分以粗体突出显示。
当使用 ResNet-50 和 DCN 作为主干网络（如 DB∗ 和 FCENet∗ ）时，我们的方法实现了最佳性能（90.13% F 度量），并且远远超过所有最先进的方法。例如，我们的方法（“Res50-1s-1024∗”）在 F 度量方面比 FCENet∗ 高出 4.33%，在 F 度量方面比 DB∗ 高出 5.43%。定性可见结果如图 9 (a) 和 (b) 所示。
- 图 9. 视觉实验结果。蓝色轮廓为边界提议，红色轮廓为检测边界。
CTW-1500。测试时，我们将图像的两侧设置在（640,1024）范围内，同时保持其纵横比。阈值thd和ths分别设置为0.375和0.8。代表性可见结果如图9（c）和（d）所示，表明我们的方法可以精确检测长曲线文本的边界。定量结果列于表 VII 中。与最先进的方法相比，我们的方法（“Res50-1s-1024∗”）在召回率（84.71%）和 F 值（86.49%）方面都取得了令人鼓舞的表现。具体来说，我们的方法在 F 值方面分别比 TextField 和 DB 高出 5.09% 和 3.09%。当配备轻量级主干（“Res18-4s”）时，我们的方法实现了具有竞争力的检测速度和改进的性能（84.48% F 值，34.8 FPS），而 DB（83.4% F 值，22.0 FPS）和 PAN（83.7% F 值，39.8 FPS）则没有。值得注意的是，当使用带有DCN的ResNet-50作为骨干时，检测效率略有提升。 这是因为先验信息（即距离场，分类图）的质量得到了提高，从而减少了噪声和错误检测，从而提高了检测速度。
MSRA-TD500。由于训练数据量较少，我们在 MSRA-TD500 上对模型进行了 1200 次训练。在测试期间，我们将图像的两侧设置在 (640, 960) 范围内，同时保持其纵横比。阈值 thd 和 ths 分别设置为 0.35 和 0.9。定量比较列于表 VII 中。根据表 VII，我们的方法成功检测了任意方向和大小的长文本行。当配备轻量级主干网络（“Res184s”）时，我们的方法在 F 值和 38.5 FPS 方面实现了 89.85％，优于其他最先进的方法，例如 DB （84.9％F 值，32 FPS），PAN（84.1％F 值，30.2 FPS）等。当使用带有 DCN 的 ResNet-50 作为主干网络时，我们的方法（“Res50-1s1024∗”）实现了令人满意的性能（93.69％的准确率，90.10％的 F 值）。
ICDAR-ArT。为了证明所提方法的泛化能力，我们在 ICDAR-ArT 数据集上测试了我们的模型，该数据集包含大量来自复杂场景的多语言曲线文本实例。在测试期间，我们将图像的两侧设置在 (960, 2880) 的范围内，同时保持其纵横比。阈值 thd 和 ths 分别设置为 0.4 和 0.8。如表 VIII 所列，与最近的最先进方法 PCR 相比，我们的方法可以将 F 度量从 74.0% 提高到 80.59%。具体来说，我们的方法（“Res50-1s∗”）在 F 度量方面比 PCR 高 6.59%，在召回率方面高 10.95%。图 9 © 显示了定性结果。图 10 (b) 和 (e) 分别比较了 TextRay 和我们的方法的检测结果。
- 图 10. 在 CTW-1500 中选定的具有挑战性的样本上与 TextRay 、ABCNet 和 FCENet 进行定性比较。图像 (a)-(d) 取自 FCENet。
- 表 VIII ，与 ICDAR-ART 相关工作的比较。
ICDAR-MLT17。测试时，我们将图像的两侧设置在 (960, 2048) 范围内，同时保持其长宽比。阈值 thd 和 ths 分别设置为 0.5 和 0.85。如表 IX 所列，我们的方法取得了令人印象深刻的性能（F 值达到 77.48%）。具体而言，我们的方法（“Res50-1s∗”）在 F 值方面比 DB-Res50∗ 高出 2.78%，在召回率方面高出 4.2%。我们的方法也明显优于其他最先进的方法，如 LOMO 、SAST 、SPCNet 、PSENet 。
视觉比较。如上图所示，我们对我们的方法与最先进的方法（包括 TextRay 、ABCNet 和 FCENet ）进行了更直观的比较。与其他基于轮廓的方法（即 TextRay 、ABCNet 和 FCENet ）相比，我们的方法可以生成更准确的文本边界，以明确建模不规则文本实例。图 10 展示了我们的方法对高度弯曲文本检测的有效性。

E. Weakness

图 11 显示了一些失败案例。尽管我们的方法取得了优异的性能，但由于场景图像的复杂性，仍然存在失败的可能性，例如图 11 (a)(d) 和 (e) 中的物体遮挡，图 11 (a)(b) 和 © 中的字符间距过大。这些情况在文本检测范式中仍然非常具有挑战性且并非微不足道。此外，还有一些由于标注不合理或缺失而导致的“错误检测”，如图 11 (e) 和 (f) 所示。
- 图 11. 一些失败案例的视觉结果。绿色轮廓：基本事实；红色轮廓：我们的方法的检测结果。图 (a-b) 选自 TotalText，图 (c-f) 选自 CTW-1500。

CONCLUSION

在本文中，我们提出了一种基于边界学习的由粗到精的综合框架，用于任意形状文本检测。我们的方法可以高效准确地定位文本边界，而无需复杂的后处理。所提出的框架包括特征提取主干、边界提议模块和迭代优化的边界变换器模块。我们的方法使用创新的迭代边界变换器以由粗到精的方式显式地对文本边界进行建模，这使我们能够直接获得准确的文本边界，而无需进行复杂的后处理。我们在公开数据集上的实验结果证明了我们方法的先进性能和效率。未来，我们计划基于我们目前的工作为任意形状文本开发一个文本识别框架。