【读点论文】EAFormer: Scene Text Segmentation with Edge-Aware Transformers通过更细致的文本边缘检测和过滤，低级图像特征助力得到精确文本分割-CSDN博客

本文链接：https://blog.csdn.net/weixin_43424450/article/details/141597858

EAFormer: Scene Text Segmentation with Edge-Aware Transformers

Abstract

场景文本分割旨在从场景图像中裁剪文本，通常用于帮助生成模型编辑或删除文本。现有的文本分割方法倾向于涉及各种与文本相关的监督以获得更好的性能。然而，它们中的大多数都忽略了文本边缘的重要性，而文本边缘对于下游应用至关重要。在本文中，我们提出了边缘感知变换器（Edge-Aware Transformers，简称 EAFormer），以更准确地分割文本，特别是在文本边缘。具体而言，我们首先设计一个文本边缘提取器来检测边缘并滤除非文本区域的边缘。然后，我们提出了一个边缘引导编码器，使模型更多地关注文本边缘。最后，采用基于 MLP 的解码器来预测文本蒙版。我们在常用的基准上进行了广泛的实验，以验证 EAFormer 的有效性。实验结果表明，所提出的方法比以前的方法表现更好，特别是在文本边缘的分割上。考虑到几个基准（例如 COCO_TS 和 MLT_S）的注释不够准确，无法公平地评估我们的方法，我们重新标记了这些数据集。通过实验，我们观察到，当使用更准确的注释进行训练时，我们的方法可以实现更高的性能提升。代码和数据集可在 EAFormer (hyangyu.github.io)
论文地址：[2407.17020] EAFormer: Scene Text Segmentation with Edge-Aware Transformers (arxiv.org)
EAFormer是复旦推出的AI文本分割框架。擅长在照片中找到文字，并且能很精确地把文字从背景中分离出来。EAFormer的愿景：即使文字的边缘很模糊或者背景很复杂，EAFormer也能做得很好。对于想要从图片中去除文字或者编辑文字的人来说非常有用。EAFormer是一个能让我们轻松处理图片中文字的智能助手

Introduction

在过去十年中，场景文本分割获得了显著的发展，这主要归功于深度学习的进步。文本分割模型的目标是在像素级别准确区分前景（文本区域）和背景（非文本区域）。场景文本分割在各种应用中起着至关重要的作用，例如文档分析、场景文本图像超分辨率、场景理解和文本擦除。例如，TEAN 引入文本分割结果作为辅助信息，以更好地超解析场景文本图像。
为了推动场景文本分割的发展，近年来提出了各种方法[A two-stage gan for high-resolution retinal image generation and segmentation,Textformer: Component-aware text segmentation with transformer]和数据集 [CVPR 2021] Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach,GitHub - TencentARC/BTS: BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild]。以前的场景文本分割方法倾向于引入与文本相关的监督，例如文本或字符识别监督，以提高性能。 TexRNet提出了一个预训练的字符鉴别器来引入字符识别的监督，这需要额外的字符级边界框注释。同样，PGTSNet设计了一个文本感知鉴别器来增强分割结果的可读性。此外，它们都利用各种损失来获得更好的分割性能，这可能使得选择合适的超参数来平衡多个损失变得具有挑战性。最近，TextFormer采用了识别头，使模型专注于文本细节并提高其对文本的感知。对于场景文本分割任务，有几个广泛使用的基准，例如 ICDAR13 FST 、COCO_TS 、MLT_S 、Total-Text 、TextSeg 和 BTS 。虽然这些数据集的样本似乎足以满足基于深度学习的模型的需求，但某些数据集（例如 MLT_S）的注释质量可能达不到预期标准，尤其是在文本边缘区域。这些数据集的注释是通过边界框监督获得的，无法提供与 TextSeg 和 BTS 等人工注释的数据集相同的准确度和精度。
虽然之前的方法在文本分割中取得了一定的性能提升，但它们忽略了文本边缘在实际应用中的重要性。例如，准确的文本蒙版，尤其是在文本边缘区域，可以为文本擦除任务中的文本区域修复提供更多的背景信息，如图1所示。在实验中，我们观察到传统的边缘检测算法，如Canny ，可以很好地区分文本边缘。为了充分利用传统边缘检测方法的优点来提高文本边缘的分割性能，本文提出了用于场景文本分割的边缘感知变换器（EAFormer）。具体来说，EAFormer由三个主要模块组成：文本边缘提取器、边缘引导编码器和文本分割解码器。文本边缘提取器以场景图像为输入并预测文本区域和边缘。在这个模块中，我们采用轻量级的主干来检测文本区域，并使用传统的边缘检测算法Canny来获得整个图像的边缘。为了减轻非文本区域边缘的干扰，预测文本区域的蒙版用于滤除非文本区域的边缘。对于边缘引导编码器，我们采用了 SegFormer 的框架，该框架由四个阶段组成。在该编码器的第一阶段，我们额外设计了一个对称交叉注意子模块，旨在利用过滤后的文本边缘引导编码器在第一阶段更多地关注文本边缘。最后，将边缘引导编码器的输出融合并输入到文本分割解码器中以预测文本掩码。
- 图 1：使用不同文本蒙版作为输入的下游应用程序（文本擦除）结果比较。文本边缘的更精确分割有利于文本擦除任务，因为错误预测的文本像素更少，并且为修复模型保留了更多背景信息。
为了验证 EAFormer 的有效性，我们在六个文本分割基准上进行了大量实验。结果表明，EAFormer 确实可以提高基线模型的分割性能。然而，如前所述，COCO_TS 和 MLT_S 的标注不够准确，这可能会使这两个数据集上的实验结果难以令人信服。为了解决这个问题，我们重新标注了 COCO_TS 和 MLT_S 的训练集、验证集和测试集。通过实验，我们观察到，与以前具有更精确像素级标注的方法相比，所提出的 EAFormer 仍然可以实现更好的性能。总而言之，本文的贡献如下：
- 为了在文本边缘区域获得更好的分割性能，我们提出了 EdgeAware Transformers (EAFormer) 来明确预测文本边缘并使用它们来指导以下编码器。
- 考虑到COCO_TS和MLT_S的标注质量较低，我们对其进行了重新标注进行实验，以使EAFormer在这两个数据集上的实验结果更具说服力。
- 在六个场景文本分割基准上进行的大量实验表明，所提出的 EAFormer 可以实现最先进的性能，并且在文本边缘区域表现更好。

Related Work

Scene Text Detection

现有的场景文本检测方法可分为两类：基于回归的方法和基于分割的方法。基于回归的方法将文本检测视为一项独特的对象检测任务，其目标是通过预测与锚点或像素的偏移量来定位文本区域。然而，与一般对象相比，文本在尺度和方向上表现出显著的变化。
为了处理有方向的文本，EAST 以无锚点的方式直接回归边界偏移量。虽然基于回归的方法对于四边形文本表现良好，但它们很难适应任意形状的文本。基于分割的方法将文本检测视为密集的二进制预测任务。DBNet 在分割网络中引入了可微分二值化，允许自适应阈值预测。虽然已经提出了各种文本检测方法，但我们的方法仅采用轻量级主干来检测文本区域。虽然一般分割领域的一些方法提出引入边缘信息来提高性能，但它们并不完全适合文本分割任务，这可能有两个原因：1）为了准确检测边缘，它们中的大多数需要边缘的注释，这既费时又费力。2）直接使用它们来解决文本分割可能会引入一些非文本区域的边缘，导致性能不佳。

Semantic Segmentation

语义分割是计算机视觉中的一项基本任务，涉及对输入图像中的每个像素进行分类。全卷积网络 (FCN) 可以有效地学习密集预测，以前是语义分割任务的主流。为了在多个尺度上捕获上下文信息，几种方法引入了扩张卷积或空间金字塔池化来扩大感受野。随后，引入了注意力机制来更好地捕获长距离依赖关系。最近，基于 Transformer 的语义分割方法 SegFormer 提出将分层 Transformer 编码器与轻量级 MLP 解码器相结合。由于其出色的性能，我们采用它作为我们方法的基线模型。

Scene Text Segmentation

场景文本分割旨在预测场景图像中文本的细粒度掩码。过去，文本分割方法通常依赖于阈值或低级特征对场景文本图像进行二值化。然而，这些方法通常难以处理具有复杂颜色和纹理的文本图像，导致性能不佳。最近，基于深度学习的文本分割方法应运而生。例如，SMANet 采用编码器解码器结构并引入了一个新的多尺度注意模块用于场景文本分割。TextFormer 将文本解码器引入分层分割框架以增强其感知文本细节的能力。由于以前的数据集的标记质量较低，TexRNet 提出了具有细粒度注释的 TextSeg 数据集，其中包含单词和字符级边界多边形、掩码和转录。考虑到文本分割中中文文本的缺乏，提出了一个双语文本分割数据集 BTS 。BTS 的作者还开发了 PGTSNet，它使用预训练的文本检测模型将文本分割约束在检测到的文本区域上。

Methodology

在本节中，我们详细介绍了所提出的 EAFormer。首先，我们介绍提出 EAFormer 的动机。然后，我们详细介绍了 EAFormer 的每个模块，包括文本边缘提取器、边缘引导编码器和文本分割解码器。最后，我们介绍了我们方法的损失函数。
找文本:在照片或图片里，EAFormer能快速找到所有的文字，然后描边角:不仅能找到文字，还能特别准确地描绘出文字的边缘，哪怕是弯曲曲的地方。改背景:如果你想把图片里的文字去掉，换上新的背景，EAFormer让文字看起来像是从未有过一样。如果EAFormer碰到了新的或不同语言的文字，能很快学会并提高识别能力EAFormer - 复旦推出的AI文本分割框架 | AI工具集 (ai-bot.cn)。
EAFormer的技术原理
- 文本边缘提取器:利用Canny算法检测图像中的边缘，并结合轻量级文本检测模型来过滤非文本区域的边缘，只保留文本区域的边缘信息。
- 边缘引导编码器:基于SegFormer框架构建，通过对称交叉注意力层在编码过程中融入边缘信息，增强模型对文本边缘的感知能力。
- MLP解码器:采用多层感知机(MLP)层来融合特征并预测最终的文本mask，实现文本区域的精确分割。
- 损失函数设计:使用文本检测损失和文本分制损失两种交叉熵损失进行优化，通过超参数平衡两者权重，简化了超参数选择的复杂性。
- 数据集重新标注:针对COCO_TS和MLT S等数据集的标注质量问题，进行了重新标注，确保评估结果的可靠性和模型训练的准确性。
- 特征融合策略:在边缘引导编码器中，通过设计的对称交又注意机制仅在第一层融合边缘信息，避免了在所有层中融合边缘信息可能带来的性能下降。
- 轻量级文本检测器;在文本边缘提取器中使用，包括基于ResNet的骨干网络和MLP解码器，用于提取文本区域特征并辅助边缘过滤。

Motivation

毋庸置疑，文本边缘对于场景文本分割任务至关重要，尤其是其下游任务（如文本擦除）。准确分割文本边缘可以为文本擦除模型提供更多背景信息来填充文本区域。如图1所示，我们利用预先训练的修复模型，以不同类型的文本蒙版作为输入，对场景图像中的文本进行擦除。通过实验，我们发现文本边界框蒙版过于粗糙，无法为修复模型提供更多背景。此外，边缘分割不准确的文本蒙版会使修复模型错误地将属于文本的像素视为背景，导致擦除效果不佳。只有提供边缘分割准确的文本蒙版，修复模型才能生成令人满意的文本擦除结果。
PGTSNet 虽然意识到了文本边缘的重要性，并采用了二分类交叉熵损失来检测文本边缘的像素，但并没有明确地将容易获取的文本边缘信息作为输入信息之一。为了验证其对文本边缘的感知能力，我们对骨干网络输出的特征进行了 K-Means 聚类，其中 K 设置为 3，分别代表背景、文本边缘和文本中心。通过图 2 所示的可视化结果，我们观察到该方法在文本边缘的感知方面仍存在一定的不足。
- 图 2：PGTSNet 和 EAFormer 的特征聚类结果。可视化表明，与 EAFormer 相比，PGTSNet 几乎不能很好地感知文本边缘。
此外，我们发现传统的边缘检测算法可以得到准确的文本边缘，这可能有利于场景文本分割任务。然而，由于传统的边缘检测方法无法区分文本区域和非文本区域，大多数边缘是在非文本区域检测到的。如果将边缘检测结果直接用作输入来辅助文本分割，可能会混淆文本分割模型并对其性能产生不利影响。更多讨论见第 5 节。在下一小节中，我们将介绍我们的方法如何利用传统边缘检测算法的结果在文本分割任务中取得更好的性能。

Edge-Aware Transformers (EAFormer)

如图 3 所示，所提出的 EAFormer 由三个模块组成：文本边缘提取器、边缘引导编码器和文本分割解码器。给定输入场景文本图像 $X ∈ \R ^{3×H×W}$ ，文本边缘提取器用于获取文本区域 Et 的边缘。然后，将文本图像 X 和检测到的文本边缘 Et 输入到边缘引导编码器中以提取边缘感知特征。最后，文本分割解码器将编码器生成的特征作为输入以生成相应的文本掩码 Mt。
文本边缘提取器。由于文本边缘对于场景文本分割任务至关重要，我们提出了一个文本边缘提取器来获取文本区域的边缘。首先，我们使用传统的边缘检测算法 Canny 获取整个输入图像 Ew 的边缘。如前所述，Ew 中非文本区域的边缘可能会对文本分割产生负面影响。因此，我们在文本边缘提取器中引入了一个轻量级的文本检测模型来执行边缘过滤。具体来说，我们首先使用 ResNet-like 主干提取多级视觉特征 $^d = \{F ^d _1 , F ^d _2 , F ^d _3 , F ^d _4\}$ ，其中 $^d _i ∈ \R ^{C_i×H_i×W_i}$ 表示 ResNet-like 主干第 i 层的特征（有关文本检测主干的更多细节在补充材料中介绍）。然后，使用文本检测头来预测文本区域的掩码 Ma，可以将其表述为：
- $\mathbf {M}_a = \text {Conv}_{1\times 1}(\text {Concat}(\{\mathbf {F}^d_1, \mathbf {F}^d_2, \mathbf {F}^d_3, \mathbf {F}^d_4\})) ,(1)$
- 其中 Conv1×1(·) 和 Concat(·) 分别表示 1×1 卷积层和连接操作。借助文本区域掩码 Ma，我们可以通过将文本区域掩码 Ma 与检测到的边缘 Ew 逐像素相乘来滤除非文本区域的边缘。因此，可以通过以下方式获得文本区域的边缘 Et：
- $\mathbf {E}_{t} = \mathbf {M}_a \odot \text {SoftArgmax}(\mathbf {E}_w) ,(2)$
- 值得一提的是，我们在乘法之前对 Ew 进行了软 argmax 操作，因为联合优化文本检测和分割分支可以实现更好的文本检测性能。然后，将过滤后的文本边缘 Et 输入到下面的边缘引导编码器中，以增强其区分文本边缘周围像素的能力。
边缘引导编码器。由于 SegFormer 在语义分割方面表现出色，我们采用它作为边缘引导编码器的基本框架。如图 3 所示，边缘引导编码器由四个阶段组成，过滤后的文本边缘在第一阶段合并。每个编码阶段包含三个子模块：重叠块嵌入、高效自注意力和前馈网络。重叠块嵌入用于提取每个块周围的局部特征。然后，将特征输入到自注意力层以挖掘像素之间的相关性。原始自注意力层公式如下：
- $\text {SA}(\mathbf {Q}, \mathbf {K}, \mathbf {V})=\text {Softmax}(\frac {\mathbf {QK}^\top }{\sqrt {d_\text {head}}})\mathbf {V}, (3)$
- 其中 Q、K 和 V 是通过对相同特征应用不同的嵌入层获得的。为了降低计算成本，我们遵循 [Segformer] 引入了 K 和 V 的空间缩减操作。有关空间缩减的更多细节见补充材料。最后，对于第 i 阶段，采用前馈网络生成输出特征 $^s_i$ 。不同的是，我们在第一阶段的前馈网络之后额外引入了一个对称交叉注意层来合并提取的边缘指导 Et。具体而言，对称交叉注意层包括第一阶段的特征 $^s_i$ 与边缘指导 Et 之间的两个交叉注意操作。一方面，Et 被视为 Query 来提取边缘感知视觉信息 $F ^{ev}$ ，其中 $^s_i$ 被视为 Key 和 Value；另一方面， $^s_i$ 用作 Query 来进一步挖掘有用的文本边缘信息 $F ^{te}$ ，其中 Et 被视为 Key 和 Value。因此第一阶段的最终输出 $\hat F^s_1$ 可以表示为：
- $\begin {aligned} \hat {\mathbf {F}}^s_1 & = \mathbf {F}^{ev} \oplus \mathbf {F}^{te} \oplus \mathbf {F}^s_1 \\ \mathbf {F}^{ev} & = \text {SA}(\mathbf {E}_t, \mathbf {F}^{s}_1, \mathbf {F}^{s}_1) \\ \mathbf {F}^{te} & = \text {SA}(\mathbf {F}^{s}_1, \mathbf {E}_t, \mathbf {E}_t) \\ \end {aligned} ,(4)$
- 其中 SA(·) 表示前述的自注意力操作，⊕ 表示逐像素相加。随后，ˆF s 1 和其他阶段的输出被输入到文本分割解码器中。
- 图 3：EAFormer 的整体结构。EAFormer 由三个模块组成：文本边缘提取器、边缘引导编码器和文本分割解码器。“SA”、“CA”和“FFN”分别代表自注意力、交叉注意力和前馈网络。
文本分割解码器。与之前的方法 [Textformer] 类似，我们使用多个 MLP 层来融合特征并预测最终的文本掩码 Mt。首先，我们通过相应的 MLP 层统一四个阶段输出的通道维度。然后，将它们上采样到相同的分辨率，并由 MLP 层进一步融合。最后，融合的特征用于预测文本掩码。假设第 i 阶段的特征分辨率为 Hi ×Wi ×Ci，则解码过程可以表示为：
- $\begin {aligned} \tilde {\mathbf {F}^s_i} & = \text {MLP}(C_i, C_1)(\mathbf {F}), \ \mathbf {F}\in \{\hat {\mathbf {F}}^s_1, \mathbf {F}^s_2, \mathbf {F}^s_3, \mathbf {F}^s_4\} \\ \tilde {\mathbf {F}^s_i} & = \text {UpSample}(H_1, W_1)(\tilde {\mathbf {F}^s_i}), \ i\in \{1, 2, 3, 4\} \\ \mathbf {F}^s & = \text {Fuse}(\mathcal {F}), \ \mathcal {F} = \{\tilde {\mathbf {F}^s_1}, \tilde {\mathbf {F}^s_2}, \tilde {\mathbf {F}^s_3}, \tilde {\mathbf {F}^s_4}\}\\ \mathbf {M}_t & = \text {MLP}(C_1, 2)(\mathbf {F}^s) \end {aligned}, (5)$
- 其中 MLP(Cin, Cout)(·) 表示 MLP 中输入和输出特征的通道分别为 Cin 和 Cout。Fuse(·) 表示输入特征首先被连接起来，然后通过 MLP 层在通道维度上减少。

Loss Function

以前的文本分割方法倾向于引入各种损失来提高性能，这可能会给选择合适的超参数带来困难。在提出的 EAFormer 中，仅使用两个交叉熵损失（文本检测损失 Ldet 和文本分割损失 Lseg）进行优化，可以表示为：
- $\mathcal {L} = \underbrace {\text {CE}(\mathbf {M}_t, \hat {\mathbf {M}_t})}_{\mathcal {L}_{seg}} +\ \lambda \ \underbrace {\text {CE}(\mathbf {M}_a, \hat {\mathbf {M}_a})}_{\mathcal {L}_{det}}, (6)$
- 其中 λ 是平衡 Ldet 和 Lseg 的超参数；ˆMa 和 Mˆ t 分别是 Ma 和 Mt 的真实值。请注意，Ma 使用的边界框级监督可以从语义级注释中获得，这意味着所提出的方法只需要语义级注释，就像以前的方法一样。

Experiments

Datasets

在本文中，我们在六个文本分割基准上进行了广泛的实验，其中包括五个英文文本分割数据集（ICDAR13 FST 、COCO_TS 、MLT_S 、Total-Text 和 TextSeg ）和一个双语文本分割数据集 BTS 。表 1 显示了每个数据集的一些统计细节。每个数据集的示例显示在补充材料中。
如图 4 所示，COCO_TS 和 MLT_S 的原始注释过于粗略，无法训练出具有令人满意性能的文本分割模型。即使本文提出的方法在这些数据集上取得了更好的效果，也不足以证明我们方法的有效性。为了使实验结果更具说服力，我们重新注释了这两个数据集的所有样本，并使用新注释的数据集进行实验。图4展示了原始注释与修改后的注释之间的比较。
- 图 4：原始标注与修改后的标注对比。原始数据集存在标注缺失、标注不准确的问题。使用重新标注的数据集来训练所提出的方法，使得实验结果更具说服力。

Implementation Details

所提出的方法是用 PyTorch 实现的，我们在 8 个 NVIDIA RTX 4090 GPU 上进行了所有实验。所有实验均采用 AdamW 优化器，初始学习率为 6×10−5，权重衰减设置为 0.01。批量大小设置为 4。按照以前的方法，我们还在训练阶段采用了一些数据增强操作，如随机裁剪和翻转。与现有的使用预训练模型检测文本区域或识别字符的方法不同，所提出的 EAFormer 中的所有模块都是联合训练的。换句话说，训练 EAFormer 时不需要使用额外的数据集。Canny 的两个阈值分别设置为 100 和 200。为了评估所提出方法的性能，我们对前景像素同时使用了交并比 (fgIoU) 和 F 分数。 fgIoU和F-score指标分别遵循百分比格式和小数格式。

Experimental Results

定量比较。为了全面评估 EAFormer，我们在英语和双语文本分割数据集上进行了实验。表 2 显示了五个英语文本分割数据集上的实验结果。与以前的方法相比，EAFormer 在大多数基准测试中都可以在 fgIoU 和 F-score 方面取得明显的改进。例如，在 TextSeg 上，EAFormer 在 fgIoU 和 F-score 方面分别比之前的 SOTA 方法 TextFormer 好 0.64% 和 0.6%。
- 表 2：在五个英文文本切分数据集上的性能比较。粗体和下划线的数字分别代表最佳结果和第二好结果。
尽管原始 COCO_TS 和 MLT_S 数据集的标注较粗，但提出的 EAFormer 仍能表现出更好的性能，例如与 TFT 相比，在 COCO_TS 数据集上实现了 7.63% 的 fgIoU 提升。考虑到基于不准确标注的实验结果不够有说服力，我们对 COCO_TS 和 MLT_S 的训练数据集和测试数据集都进行了重新标注。基于重新标注数据集的实验结果如表 3 所示。通过实验，我们观察到，当使用标注更准确的数据集进行训练和测试时，提出的 EAFormer 仍然可以实现相当大的性能提升。
- 表 3：在重新标注的 COCO_TS 和 MLT_S 上的实验结果。TextFormer 的结果是通过重新实现该方法获得的。
与原始数据集上的结果相比，重新注释的数据集上的性能似乎下降了很多。以下两个原因可以解释这种现象：
- 1）数据集中存在较多的模糊文本，这确实给模型处理文本边缘带来了一定的挑战；
- 2）重新标注的测试数据集准确率更高，且在评估中没有被忽略的区域。
此外，我们还在双语文本分割数据集 BTS 上进行了实验，结果如表 4 所示。尽管 PGTSNet 不公平地引入了预训练的文本检测器，但 EAFormer 仍然可以在 fgIoU/F-score 上实现 1.6%/2.8% 的提升，验证了所提方法的有效性。
- 表 4：BTS 上的性能比较。粗体和下划线的数字分别代表最佳结果和第二好结果。
由于我们引入了轻量级文本检测头，因此不可避免地会引入更多参数。我们评估了参数数量和推理速度。与之前的 SOTA 方法 TextFormer（85M 参数和每幅图像 0.42 秒）相比，所提出的模型具有 92M 参数，平均每幅图像花费 0.47 秒。在参数数量略有增加的情况下，我们的方法可以实现显着的性能提升。
定性比较。我们还通过可视化将 EAFormer 与以前的方法在分割质量方面进行了比较。如图 5 所示，提出的 EAFormer 在文本边缘的表现优于以前的方法，这得益于引入的边缘信息。此外，对于 COCO_TS 和 MLT_S，我们比较了基于原始和修改后的注释的分割结果。虽然表 3 表明在使用重新注释的数据集进行训练和测试时，我们的方法的性能有所下降，但图 5 中的可视化表明我们的模型能够基于重新注释的数据集获得更好的分割结果。补充材料中展示了更多可视化效果。
- 图 5：不同方法或使用不同注释进行训练的定性比较可视化。“OA”和“RA”分别表示使用原始注释和重新注释进行训练的 EAFormer。

Ablation Study

超参数λ。在训练EAFormer时，使用两个loss进行优化。超参数λ是为了平衡Ldet和Lseg的权重，合适的λ可以获得更好的性能。因此，我们进行了一些实验，将λ的范围从 {0.1, 0.5, 1.0, 5.0, 10.0} 中选择出来，实验结果如表5所示。当λ设置为1.0时，EAFormer达到最佳效果，与TextSeg上的基线模型相比，fgIoU/F-score分别提高了3.47%/2.3%。表5所示的结果表明，当λ在{0.5, 1.0, 5.0, 10.0}范围内时，对性能的影响不大。然而如果将λ设置为0.1，EAFormer的性能并不理想，这可能是因为λ太小导致文本检测模块难以收敛，从而影响文本分割的性能。因此，我们在本文的所有实验中将λ设置为1.0。
- 表5：选择 λ 的实验结果。当λ设置为1.0时，所提出的方法可以达到最佳性能。
边缘过滤和边缘引导。在提出的 EAFormer 中，文本边缘提取器中的边缘过滤和边缘引导编码器中的边缘引导是两个关键组件。为了评估这两种策略的性能增益，我们对它们进行了消融实验，结果如表 6 所示。请注意，当仅使用边缘过滤时，提取的边缘信息与输入图像连接并输入到基于 SegFormer 的编码器中。如表 6 所示，引入边缘过滤可以明显提高性能。
- 表 6：消融研究的实验结果。如果仅引入边缘引导，非文本区域的边缘会对所提出的方法产生负面影响。
然而，如果仅引入边缘引导，我们的方法性能不佳。一个可能的原因是非文本区域的边缘引入了更多的干扰信息，导致模型无法有效地利用提取的边缘来辅助文本分割。因此，边缘过滤和边缘引导对于我们的方法都是必要的，当两者同时采用时，EAFormer 可以实现 SOTA 性能。

Discussions

过滤掉非文本区域的边缘。在文本边缘提取器模块中，我们建议过滤掉非文本区域中的边缘信息，以避免它们对模型性能产生不利影响。在消融实验部分，我们可以知道过滤非文本区域的边缘信息可以明显提高性能。通过可视化（参见补充材料），我们观察到当所有边缘信息都用于辅助分割时，模型会错误地认为具有边缘信息的区域应该归类为前景。因此，为了给模型明确的边缘指导，所提出的方法仅保留文本区域的边缘信息作为输入。
在不同层引入文本边缘。在边缘引导编码器中，我们仅在第一阶段通过对称交叉注意提取边缘增强特征信息。众所周知，较低级别的特征对文本边缘信息更敏感。我们在图 6 中可视化了不同阶段的特征聚类结果，可视化表明只有第一阶段的特征关注边缘信息。因此，在较早的阶段引入检测边缘是合理有效的。我们还尝试在其他阶段引入边缘引导进行实验（详细结果见补充材料）。实验结果表明，引入检测边缘的阶段越高，EAFormer 的性能提升越小。特别是在第三或第四阶段引入检测边缘时，EAFormer 的性能甚至低于基线。
- 图 6：不同阶段特征的聚类结果。在第一阶段引入文本边缘引导是合理的，因为只有第一阶段的特征关注边缘信息。
利用现成的文本检测器。在文本边缘提取器中，我们使用了一个轻量级的文本检测器，该检测器由基于 ResNet 的主干和 MLP 解码器组成。事实上，我们可以利用一个在文本检测数据集上预先训练过的现成的文本检测器，这可以帮助 EAFormer 在实际应用中取得更好的性能。由于这可能对以前的方法不公平，我们只探索 EAFormer 的性能上限。在实验中，使用预先训练的 DBNet 替换轻量级文本检测器模块，EAFormer 在 TextSeg 上的性能可以达到新的 SOTA 性能（fgIoU/F-score 为 90.16%/95.2%）。
与以前的边缘引导方法的区别。实际上，将边缘信息纳入分割是一种经过深入研究的策略。但是，我们的方法与以前的工作仍有一些不同。首先，BCANet 和 BSNet 需要边缘监督，而本文提出的方法直接使用 Canny 提取边缘。虽然 EGCAN 也使用了 Canny，但我们的方法还引入了边缘过滤以保留有用的边缘信息，这是专门为文本分割设计的。此外，EGCAN 在所有编码器层中融合边缘信息，而我们的方法通过我们设计的对称交叉注意仅在第一层中融合边缘信息。
局限性。为了过滤非文本区域的边缘，我们引入了一个轻量级的文本检测器，这可能会稍微增加可学习参数的数量。此外，我们仅使用现成的边缘检测算法 Canny 来提取文本边缘，而不是采用更好的基于深度学习的边缘检测方法。引入 SOTA 边缘检测方法可能会进一步提高我们方法的性能。

Conclusion

本文提出了一种边缘感知Transformer（Edge-Aware Transformers，简称EAFormer），用于解决文本边缘分割不准确的问题。具体来说，采用传统的边缘检测算法Canny提取边缘，为避免涉及非文本区域的边缘，采用轻量级的文本检测模块，过滤掉对文本分割无用的边缘。此外，我们基于SegFormer提出了一种边缘引导编码器，增强其对文本边缘的感知能力。考虑到一些数据集的低质量标注可能会影响实验结果的可信度，我们对这些数据集进行了重新标注。在公开的基准上进行了广泛的实验，SOTA结果验证了EAFormer在文本分割任务中的有效性。