【读点论文】Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing

羞儿

于 2024-08-01 14:05:21 发布

阅读量640

点赞数 3

文章标签：文本处理 OCR 深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_43424450/article/details/140846176

版权

Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing

Abstract

视觉文本是文档和场景图像中的关键元素，在计算机视觉领域具有重要意义并引起了广泛关注。除了视觉文本检测和识别之外，视觉文本处理领域的研究也经历了激增，这得益于基础生成模型的出现。然而，由于文本具有区别于一般对象的独特属性和特征，因此挑战依然存在。正如我们在研究中观察到的那样，有效利用这些独特的文本特征对于视觉文本处理至关重要。在本次调查中，我们对该领域的最新进展进行了全面的多视角分析。首先，我们引入了一个分层分类法，涵盖了从文本图像增强和恢复到文本图像处理等领域，然后是不同的学习范式。随后，我们深入讨论了如何将特定的文本特征（例如结构、笔画、语义、风格和空间上下文）无缝集成到各种任务中。此外，我们探索了可用的公共数据集，并在几个广泛使用的数据集上对所审查的方法进行了基准测试。最后，我们确定了未来研究的主要挑战和潜在途径。我们的目标是将这项调查确立为一项基本资源，促进在视觉文本处理这一动态领域的持续探索和创新。与这项调查相关的项目可在 https://github.com/shuyansy/Survey-of-Visual-Text-Processing 上找到。
论文地址：[2402.03082] Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing (arxiv.org)

INTRODUCTION

视觉文本是嵌入在图像中的文本元素，在图像/视频检索、视障人士辅助、场景理解、文档人工智能等方面发挥着重要作用。根据文本图像类型，视觉文本可分为文档文本和场景文本，分别嵌入在文档图像和场景图像中。视觉文本研究领域分为两个主要分支：文本识别和文本处理。目前，专注于文本识别的研究工作大幅增加。这一研究演变从深度学习之前的时代映射到当前以深度学习技术为主导的范式，这是众多研究强调的进展。
Ye 等人 [Text detection and recognition in imagery: A survey] 和 Zhu 等人 [Scene text detection and recognition: Recent advances and future trends] 的评论主要集中在基于图像的文本检测和识别工作上，这些工作大多利用传统的手工特征。Liu 等人 [Scene text detection and recognition with advances in deep learning: A survey] 和 Lin 等人 [Review of scene text detection and recognition] 的评论将重点转向用于检测和识别场景文本的深度学习框架。此外，Chen 等人 [Text recognition in the wild: A survey] 全面研究了场景文本识别技术。尽管这些学术贡献在文本识别（包括检测和识别）方面有所建树，但文献中仍然缺乏一项整合视觉文本处理研究全领域的统一调查。
视觉文本处理领域包括两个主要类别：文本图像增强/恢复和文本图像处理，如图 1 所示。增强/恢复类别包括：（i）文本图像超分辨率，增强低分辨率图像中文本的分辨率和清晰度；（ii）文档图像去扭曲，纠正数字化工作流程中至关重要的几何扭曲；（iii）文本图像去噪，旨在降低噪音和提高图像质量。相反，处理类别包括：（i）文本删除，从图像中消除文本并恢复底层背景的像素；（ii）文本编辑，改变文本内容同时保留其原始美感；（iii）文本生成，合成具有多种外观以保持视觉真实性的文本图像。其他相关主题包括文本分割和编辑检测。视觉文本处理在许多实际应用中都至关重要。文本图像增强和恢复任务主要侧重于增强低保真图像的质量。这包括通过去扭曲来纠正文本定位，通过超分辨率或去噪来增强可读性，这对于提高文本识别和理解的准确性至关重要。同时，文本图像处理技术在隐私保护中发挥着重要作用，通过删除文本，通过编辑图像翻译，通过文本生成增强增强现实界面。
- 视觉文本处理任务的可视化样本。第一行是文本图像增强/恢复，包括超分辨率、去扭曲和去噪。第二行是文本图像处理，包括文本删除、文本编辑和文本生成。
视觉文本处理是低级计算机视觉的一个子领域，但更具体地关注文本像素。此外，从方法论的角度来看，它与生成式人工智能 (AI) 紧密相关。在生成式人工智能领域，由于深度学习的发展，该领域取得了重大进步，尤其是以生成对抗网络和扩散模型等突破性框架的发展为标志。一方面，由于文本与一般对象之间固有的相似性，这些通用范式赋予视觉文本处理方法强大的功能。另一方面，它们也面临着许多挑战，因为文本具有与一般对象不同的独特特征。例如，场景文本实例可能在语言、颜色、字体、大小、方向和形状方面有所不同。
为了应对这些挑战，研究人员研究了一系列与文本相关的特征，包括结构（布局和方向）、笔画（字符字形）、语义（语言信息）、风格（颜色和字体）和空间上下文（背景纹理和深度）。文本相关任务的广泛使用，无论是在强监督下使用完全注释的数据还是设计弱监督方法，都有助于提取特定的文本特征。此外，多任务架构和条件生成模型等新兴领域允许将各种文本特征灵活地集成到不同的视觉文本处理框架中，从而带来显著的增强。
在本综述中，我们全面、多角度地概述了基于深度学习的视觉文本处理工作的最新进展。首先，我们根据处理目的对现有工作进行分类，然后根据不同的学习范式进行分类，从而建立分层分类法。随后，我们深入讨论各种文本特征类别中的开创性工作，特别关注文本特征和网络设计的无缝集成。随后，我们详细介绍了基准数据集、评估指标和相应的实验结果比较。最后，我们强调了当前的研究挑战并提出了未来研究的潜在方向。总而言之，我们的贡献如下：
- (i) 尽管存在大量关于文本检测和识别的调查，但这是第一篇专门针对视觉文本处理工作的全面文献综述。
- (ii) 我们开发了一套针对视觉文本处理作品的多视角分类方案。这不仅需要基于不同任务和学习范式的分层分类法，而且还深入研究各种不同的文本特征。
- （iii）我们对来自不同文本处理任务的各种数据集进行了全面概述，并对当代作品的表现进行了批判性评估。
- （iv）我们识别并总结了当前研究中尚未解决的挑战，并对该领域未来探索的有希望的方向提供了见解。
本综述的组织结构如图 2 所示。第 2 节简要介绍了问题相关分类法和相关研究领域的背景。第 3 节全面回顾了该领域的代表性作品，强调它们与特定文本特征的无缝集成。第 4 节检查了可用的数据集。第 5 节将所审查的作品与基准进行比较。第 6 节讨论了该领域现有的开放挑战，并提供了对未来潜在发展的见解。第 7 节总结了本综述。
- 本综述的主要结构。首先，我们介绍了从图像增强和恢复到图像处理的层次分类法，然后介绍了不同的学习范式。随后，我们深入讨论了如何将特定的文本特征集成到各种任务中。此外，我们探索了公共数据集并对所审查的方法进行了基准测试。最后，我们确定了未来研究的开放挑战。

BACKGROUND

Problem Formulation and Taxonomy

形式上，让 X 和 Y 分别表示输入和输出空间。基于深度学习的视觉文本处理解决方案通常旨在学习一个最佳映射函数，该函数可以用数学形式表示为 f ∗ : X → Y 。根据 Y 的性质，我们将现有工作分为两个主要领域：文本图像增强/恢复和文本图像处理，其中每个领域由具有特定关注点的各种任务组成。在下一小节中，我们分别说明 X 和 Y 在每个领域和任务中的具体情况。

Text Image Enhancement/Restoration

在自然场景或文档中拍摄的文本图像经常会因为分辨率低、失真、噪声干扰等因素而导致保真度低。为了解决这个问题，人们提出了各种方法来增强或恢复文本图像的质量。这些方法可以进一步分为超分辨率、去扭曲和去噪。在这种情况下，Y 应该与 X 保持语义一致性，而像素空间分布应该细化以符合人类评估的标准。
文本图像超分辨率：文本图像超分辨率 (SR) 旨在从低分辨率 (LR) 文本图像 X 中重建高分辨率 (HR) 文本图像 Y，而低分辨率 (LR) 文本图像 X 遭受了各种质量下降。此任务极大地促进了后续文本识别任务的完成。虽然与更广泛的一般图像超分辨率有共同之处，但文本图像 SR 也带来了独特的挑战。首先，这是一个以前景为中心的任务，其中前景文本的质量在评估中至关重要，超过了背景纹理恢复。此外，成功的恢复必须保留文本的纹理连续性，最重要的是，在 HR 和 LR 版本中保留文本的语义完整性。这对于具有复杂字符结构的语言尤其重要，因为细微的笔画差异都会显著改变视觉感知并导致误解。此外，现实场景中质量下降因素的多变性（例如设备质量、光照条件和压缩算法）也对所提出方法的普遍性构成了额外的障碍。
文档图像去扭曲：文档图像去扭曲 (DID) 有望根据坐标映射将扭曲的文档图像转换为平面图像。相机角度、位置不佳和文档物理变形等不可控因素会严重阻碍文档图像的视觉解释，对后续过程产生不利影响，包括文本识别、表格结构识别和视觉信息提取。在这种情况下，X 表示作为输入的扭曲文档图像，而 Y 是源图像和预测的平面图像之间的坐标映射。最近，DID 已成为一个关键的研究领域。尽管取得了重大进展，但 DID 仍然面临着巨大的挑战。当前的方法通常依赖于预定义的约束，这可能导致各种应用场景中的模式崩溃，例如涉及轮廓不清晰或不完整的文档的场景。此外，虽然现有的 DID 技术通常需要高度准确的事实才能获得有效的结果，但现有的注释良好的数据集都是合成的，大量未标记的真实世界数据仍未得到充分利用。
文本图像去噪：文本图像去噪（TID）致力于减少阴影、污点和水印等负面影响，对捕获的文本图像 X 进行处理，从而实现无噪声的预测 Y。这种增强功能提高了可读性和文本检测等下游应用程序的性能。与自然图像去噪不同，TID 需要一种细致的方法来保持文本结构和内容的完整性。考虑到噪声类型的多样性，该领域的研究通常分为两大类：照明去除，解决曝光不足、过度曝光和阴影等问题；杂质去除，这是 TID 的一个关键方面，专注于消除碎片化噪声，如墨水伪影、水印和印章。在训练数据足够的情况下，单个大型模型是否能有效消除各种类型的噪声仍是一个悬而未决的问题。

Text Image Manipulation

自然场景中的图像中的文本通常需要进行处理以实现各种目的，例如隐私保护、图像翻译和增强现实 (AR) 相关应用。现有研究主要集中于文本图像删除、文本图像编辑和文本图像生成/合成。对于此上下文中的输出图像 Y，视觉结果应与输入图像 X 保持一致或忠实地符合输入条件 X，而文本内容应被删除、修改或附加。
场景文本去除：场景文本去除 (STR) 是一个基本过程，包括从自然图像中删除文本并用适合上下文的背景像素无缝填充这些区域。在本例中，Y 是没有文本的背景图像。鉴于图像中文本的普遍性，尤其是在社交媒体上，STR 对于隐私保护至关重要。这项任务分为两个基本子任务：文本定位以识别文本区域和背景重建以替换文本。STR 方法的最新进展导致了两种主要方法的发展：直接去除仅以 X 作为输入，辅助去除以 X、M 作为输入，其中 M 是二进制文本区域分割掩码。与直接去除方法相比，辅助去除方法通常由于其精确的检测指标而表现出更优的结果。
场景文本编辑：场景文本编辑侧重于属性更改、样式转换和内容修改。 总体目标是以无缝集成到背景中的方式替换文本，从而最大限度地减少对图像整体外观的破坏。文本编辑任务虽然方法各异，但通常涉及三个核心子任务：文本更改、背景恢复和图像集成。该领域的最新进展导致方法分为两大类：样式编辑和内容编辑。在样式编辑中，Y 保持与 X 相同的内容，但字符的外观、颜色和背景有所改变。样式编辑技术的显著进步增强了图像文本处理工具，从而为各个领域带来了更智能、更自动化的应用程序。相反，内容编辑与样式编辑的美学重点不同，旨在让 Y 在更改其单词或字符的同时保留 X 的原始文本样式。这方面的研究通常侧重于两个任务：调整目标文本以匹配给定图像的样式，并将其无缝集成到原始文本区域。
场景文本生成：在深度学习时代，训练数据集的规模对模型性能有至关重要的影响。然而，场景文本检测和识别任务需要大量人工注释文本框和相应内容，导致现实世界的数据有限。为了克服这种数据稀缺性，文本图像合成方法应运而生，为场景文本数据集的人工注释提供了一种替代劳动密集型过程的方法。尽管如此，合成图像的质量仍然是一个关键问题，它应该类似于真实数据的分布。

Learning Paradigms

在本节中，我们将研究不同任务中与不同映射函数相对应的流行学习范式。

Reconstruction-based Learning

基于重建的学习方法对于文本图像的恢复和增强至关重要，旨在纠正失真、增强清晰度并提高整体可读性。为此，分别出现了像素放大方法、坐标配准方法和分割方法。
像素放大方法：这些方法的核心是使用损失函数（通常是均方误差 (MSE)）来最小化增强输出和地面实况之间的像素差异。通常采用 UNet 和 Vision Transformers 等架构。
- 文本图像超分辨率方法主要作为 OCR 系统的预处理步骤进行建模，利用在高分辨率 (HR) 图像和低分辨率 (LR) 图像的重建结果之间计算的 MSE 损失。Dong 等人采用卷积神经网络 (CNN) 实现文本图像超分辨率 (SR)，并在 ICDAR 2015 竞赛中取得重大成果。Nakao 等人开发了一个双 CNN 框架，该框架包含一个字符 SR 模块和一个通用图像 SR 模块，分别在文本图像和 ImageNet 数据上进行训练。Quan 等人实现了一种多阶段模型策略，以精确重建 LR 文本图像的高频细节。重建损失也应用于各种文本图像去噪任务以便于准确的背景估计。
坐标配准方法：这些方法并非仅仅关注像素保真度，而是旨在预测扭曲图像中坐标的变换，以获得更准确、更清晰的结构。这种方法对于文本因透视扭曲或介质弯曲而扭曲的图像尤其有用。
- 在深度学习时代，文档图像去扭曲被建模为一个像素预测任务。Das 等人将此任务视为语义分割任务之一，利用全卷积网络（FCN）来识别折叠的视觉特征。Ma 等人提出了一种开创性的方法，将 DID 任务定义为从扭曲图像中确定像素位移场的过程，允许直接对扭曲图像进行采样以获得平坦图像。他们采用堆叠的 U-Net 作为网络并引入数据合成方法，实现了大规模文档图像及其对应位移图的自动生成。
分割方法：同样，为了消除图像中的噪声，Hu 等人和 Gholamian 等人使用配对数据将重叠文本的分离作为分割挑战。在处理邮票模糊图像时，Yang 等人提出了一种专门的擦除模型，该模型可以预测用于定位邮票的二进制掩码。

Generative Learning

生成学习致力于生成与给定训练数据分布一致的新数据点，为许多图像处理方法铺平了道路。这些技术主要利用生成对抗网络 (GAN) 或扩散模型。
生成对抗网络：生成对抗网络 (GAN) 是生成领域常用的框架。GAN 包含两个模型：生成器和鉴别器。生成器旨在捕获真实示例的分布，以生成新的数据实例。相反，鉴别器（通常是二元分类器）力求尽可能准确地区分生成示例和真实示例。通过极小极大优化过程，生成器被认为可以有效地捕获真实数据分布。某些视觉文本处理技术，如场景文本删除，可视为图像到图像的转换任务，其中使用 vanilla GAN 来学习从输入图像到输出图像的映射，从而解决以下优化问题：
- $L_{adv} = E_x[log D(x, G(x))]\\ L_D = E_{x,y}[log D(x, y)] + E_x[(1 − log D(x, G(x)))]$
- 其中 x 是给定的场景文本图像，y 是基本事实。G 和 D 是生成器和鉴别器。
为了实现细粒度控制，条件生成对抗网络 (cGAN) 通常用于操作任务，其中鉴别器和生成器都以附加信息为条件。例如，在场景文本删除方法中，文本掩码作为额外输入提供给生成器和鉴别器，从而加速训练收敛。为了利用生成学习的潜力，Lyu 等人和 Peng 等人探索了更先进的架构，同时应用了各种预训练技术。此外，背景图像在场景文本编辑任务中对样式施加了条件约束。扩展此框架，Kumar BG 等人使用他们的创新模型 STRIVE 探索视频场景文本替换，其中包括目标帧选择、修改、插入和视频帧的关键恢复。
循环一致性生成对抗网络 (CycleGAN) 扩展了 cGAN 的功能，解决了非配对数据参考不适用的问题。 利用 CycleGAN，可以通过模拟真实数据的外观空间来合成场景文本 。此外，通过将深度混合专家与 CycleGAN 作为基础网络相结合，提出了一种统一的架构。
Karra 等人提出了 StyleGAN 架构，能够分离影响最终图像外观的各种因素，包括头发、年龄和性别，从而可以对每个因素进行独立控制。StyleGAN 已在中用于提取不透明的潜在风格表征，从而解开源文本图像的风格和内容。
扩散模型：最近，扩散模型在文本转图像任务中取得了显著的成功，为场景文本处理提供了一种替代且有竞争力的解决方案。与基于 GAN 的方法不同，扩散模型不易出现训练不稳定和模式崩溃。值得注意的是，扩散模型的最新进展使得能够整合多模态条件输入。特别是，潜在扩散模型 (LDM) 和类似研究提供了现成的预训练模型，能够根据文本提示或图像参考生成图像。
由于大多数视觉文本处理任务都可以建模为条件生成范式，因此使用的 LDM 可以分为两类：基于合成的和基于修复的，根据各自的条件进行区分。基于合成的框架使用文本提示作为条件。例如，文本图像超分辨率方法通常使用低分辨率图像中的文本作为输入，而场景文本编辑将目标文本指定为条件。相反，基于修复的方法通常以带有蒙版区域的图像为条件，结合背景样式参考进行场景文本生成。LDM中的损失函数定义为：
- $L = E_{ε(x),y,ϵ∼N(0,1),t} [ ∥ϵ − ϵ_θ(z_t, t, τ_θ(y))∥ ^2 _2 ]$
- 对于给定图像 x 和条件 y，目标是基于噪声潜在表示 $z_t$ 、时间步长 t 和条件表示 $τ_θ(y)$ ，最小化实际噪声 ϵ 和预测噪声 ϵθ 之间差异的 L2 范数。

Related Research Areas

本节简要概述了场景文本分割和编辑检测，这两者都是与更广泛的视觉文本处理方法领域密切相关的组成部分。

Scene Text Segmentation

场景文本分割 (STS) 专注于预测图像中文本的像素级掩码，与场景文本检测中使用的传统边界框预测相比，STS 的检测结果更为详细。STS 的结果对于场景文本删除和编辑等任务至关重要，因为它们提供了精确文本定位所必需的文本笔划特征。
Qin 等人介绍了一种专为文本笔画分割而设计的 FCN 方法。该方法使用 FCN 生成初始的粗略文本掩码，随后使用完全连接的条件随机场 (CRF) 模型对其进行细化。为了解决合成文本图像与真实世界文本图像之间的差异，Bonechi 等人开发了一个框架，利用真实文本图像的边界框注释来创建弱像素级监督。Wang 等人提出了一种半监督方法，该方法利用用多边形级或像素级掩码注释的真实世界数据。他们的网络采用相互加强的双任务架构，由一个编码器和两个解码器组成。
Xu 等人介绍了 TextSeg（一个具有精细注释的综合文本数据集）和一种新颖的文本分割方法 TexRNet。该数据集包含 4,024 幅图像，包含场景和海报文本。TexRNet 通过结合关键特征池和注意模块改进了当前的分割技术，从而超越了以前的方法。Ren 等人提出了一种新颖的架构，即注意力和识别增强的多尺度分割网络，由三个主要组件组成：文本分割模块、双感知解码器和识别增强模块。
总之，场景文本分割虽然是一个小众领域，但由于其强调文本笔画和字符，因此具有独特的重要性。

Editing Detection

文本编辑检测（也称为篡改文本检测）任务在保护敏感信息方面起着至关重要的作用。王等人是篡改场景文本检测领域的先驱，超越了传统的场景文本检测模型。他们的方法利用共享回归分支来识别全局语义细微差别，并辅以专门的分割分支来区分篡改文本和真实文本。此外，他们提出了一个专注于频率信息提取的独特分支，承认操纵在频谱中往往比在空间域中更明显。
与一般的文本编辑检测相比，检测文档图像中的篡改文本是一项独特的挑战，这主要是因为篡改相关的视觉线索很微妙。为了解决这个问题，Qu 等人引入了一种结合视觉和频率特征的新架构。该系统还包括一个多视图迭代解码器，专门设计用于利用尺度信息来准确识别篡改迹象。

DELVING INTO TEXT FEATURES

在本节中，我们探讨各种重要的文本相关特征，包括结构、笔画、语义、风格和空间背景，以及它们在不同任务中的重要功能整合。表 1 显示了它们的关系。
- 不同文本特征的说明及其在视觉文本处理方法中的运用。

Text Structure Feature

文本结构包括文本的布局、形状和方向，表示文本在海报或野外的排列方式。结构特征有助于保持增强前和增强后图像之间的布局一致性。此外，结构可以看作是一种独特的风格，需要在某些场景文本处理方法中进行控制。表示文本结构的最广泛使用的方法涉及文本中心线或文本轮廓控制点，如下所述。

Prior Assumption in Document Image Dewarping

为了克服传统 DID 方法在专用设备上的局限性，研究人员探索了照明效果、边界和文本行等低级特征，这些特征可视为结构化先验。基于照明的方法建立图像和反射光强度之间的关系来估计空间参数。相反，关注边界和文本行的方法旨在估计变形参数，前提是文本行在矫正后应呈水平和直线。
借助先进的数据驱动神经网络，研究人员利用上述模型设计和监督的先验假设来加速训练过程并提高重建性能。在文本行约束下，Jiang 等人通过解决包含网格正则化的优化问题来细化图像。基于边界假设，Ma 等人和 Zhang 等人首先检测文档的边缘以去除背景，从而促进初步的去扭曲步骤。此外，Xie 等人介绍了一种方法，该方法使用编码器架构提取稀疏控制点，然后通过插值生成密集位移图。控制点策略性地放置在扭曲图像上，是可量化的，允许定制数量以匹配不同数据集的复杂性并提供可管理的计算时间。

Layout Learning in Scene Text Editing and Generation

Yang 等人提出了 SwapText，利用薄板样条插值网络 (TPS) 来学习原始文本的空间风格。这个综合网络采用分而治之的策略，具有三个专门的子网络：文本交换网络、背景完成网络和融合网络。在生成领域，TextDiffuser 应运而生。TextDiffuser 的一个显著增强是集成了 Layout Transformer，能够学习文本位置和布局，并结合字符感知损失函数来稳定扩散模型的训练。

Text Stroke Feature

文字笔画是字符的形态，在各种视觉文本处理任务中起着重要的指导或条件作用。在实践中，文字笔画信息可以通过人工标注或文本分割技术获取，并用二值分割图表示。文字笔画的显式构造有效地降低了模式学习的难度，有助于精细处理。

Fine-grained Guidance in Scene Text Removal, Editing, and Super-resolution

删除：预测细粒度笔画特征对于准确删除文本至关重要，与更一般的文本区域分割方法相比，它具有显著优势。此方法的一个关键部分是保留背景的自然纹理，同时有效利用其信息。Keserwani 等人通过引入对称线字符表示来改进笔画特征预测，从而解决了这一挑战。采用专门的掩模损失来指导网络学习基本特征。Lee 等人通过使用弱监督学习提取文本笔画区域和文本笔画周围区域，进一步研究文本笔画特征。他们使用门控注意机制来调整这些区域的置信度，从而更精确地分割文本笔画。Liu 等人设计了一个低级上下文指导块来捕捉图像结构细节，以及一个高级上下文指导块，专注于潜在特征空间的语义方面。此外，他们还结合了一个特征内容建模块，将文本区域周围的直接像素与更广泛的背景融合在一起，从而最大限度地减少复杂环境中的纹理不一致。
与上述方法相比，秦等人和唐等人在文本删除之前应用预训练的文本检测模型来分割文本区域，从而更直接地提取文本笔画。笔画蒙版用于辅助重建背景。他们的方法之间的一个显着区别是，唐等人实现了顺序过程，而秦等人使用并行解码策略在修复过程中有效地整合笔画特征。
PERT 提出了一种渐进式的增强文本笔画特征的策略，其中按顺序重复执行擦除块（将文本定位网络与背景重建网络合并）。值得注意的是，PERT 只会改变文本区域，而非文本区域则会在学习到的文本笔画的指导下保持完整。Lyu 等人引入了一个掩码更新模块，该模块采用由上一次迭代的输出引导的注意机制，逐步细化文本分割图。Bian 等人提出了一个全面的四阶段模型，首先通过检测然后修复网络进行区域级掩码处理。这会生成笔画级掩码和初始粗略结果，然后通过使用两个掩码的后续网络进一步增强。同时，Du 等人详细介绍了一种中级自监督方法，该方法基于增强图像版本中文本笔划掩模的相似性，通过对合成数据进行预训练，在真实场景中展示了增强的性能。
编辑：在场景文本编辑方面，Das 等人介绍了一个端到端框架，专注于创建用于风格转换的目标蒙版。此过程首先使用源图像及其字形蒙版作为参考，定义目标图像的蒙版。通过使用详细的蒙版，它们可以无缝交换背景和字体样式。此外，Qu 等人开发了笔画引导图，以专门描绘要编辑的区域。 与修改所有图像像素的隐式方法不同，这些显式方向有助于隔离背景干扰并将网络的注意力引导到特定的文本编辑规则上。
超分辨率：文本笔画也用于文本图像超分辨率任务。陈等人提出了一种新策略，将字符解构为组成笔画，并使用辅助识别器生成的笔画级注意图来指导超分辨率过程以进行更精细的恢复。这些发展在提高文本图像超分辨率的准确性和质量方面取得了重大进展。此外，马等人引入了真实的中英文基准数据集，并开发了一种由文本边缘图监督的边缘感知学习方法。针对字符结构的复杂性，李等人利用 StyleGAN 捕捉各种结构化文本变化，利用生成结构先验实现准确的文本图像恢复。

Glyph Condition in Scene Text Generation

文本笔画在场景文本合成或生成中提供了明确的字形条件，与条件扩散模型无缝集成。Ma 等人提出了 GlyphDraw，这是一个创新框架，旨在精确控制字符生成，并通过文本位置和字形特征等附加信息增强其功能。然而，GlyphDraw 的显着局限性在于其生成各种文本排列（例如多行或密集文本）的能力有限，这是与数据集范围相关的约束。Yang 等人开发了 GlyphControl，专为通过 ControlNet 明确学习文本字形特征而设计，它利用“锁定副本”技术来维护预训练扩散模型的稳定性。为了支持广泛的训练，他们还引入了 LAION-Glyph，这是一个全面的视觉文本生成基准，为该领域建立了新的基准。

Text Semantic Feature

文本序列不仅仅包含一系列字符，还包含大量语义信息，可以指导文本图像的恢复或更改。例如，文本可以在图像超分辨率任务中提供强大的监督，确保在整个过程中保留文本内容。此外，这种语义丰富性使生成或编辑模型能够生成清晰的文本。语义特征的学习可以通过辅助文本识别任务或能够捕捉语义细微差别的独立预训练模块来促进。

Semantic Intergration in Text Image Super-resolution

在文本图像超分辨率领域，语义特征起着至关重要的作用。王等提出了 TSRN，这是一种将双向长短期记忆与残差块结合在一起的新颖架构。这种设计有效地捕获了文本图像中的序列和上下文信息，显著提高了重建质量。在 TSRN 奠定的基础之上，后续研究引入了额外的先验信息和辅助约束，进一步完善了文本图像的超分辨率技术。陈等利用预训练的 Transformer 提取监督内容，如字符位置和上下文信息。赵等提出了一个并行的上下文注意网络，旨在捕获序列相关特征并用更多高频细节丰富重建。马等集成字符概率序列作为辅助信息，采用多阶段细化来逐步增强低分辨率图像。延续这一趋势，Ma 等人开发了一个基于 Transformer 的模块，将文本先验与空间变形的文本图像同步，确保准确的特征对齐。
Zhao 等人专注于将视觉中的隐式序列特征与语言中的显式语义特征相结合，提出了三重线索辅助网络 C3-STISR。该网络利用识别、视觉和语言线索来增强超分辨率。按照这种方法，Huang 等人采用了三重线索框架，用从文本编码器获得的更复杂的语义文本嵌入先验取代了字符概率序列。类似地，Zhu 等人开发了一个双先验调制网络。该网络利用文本掩码和识别结果作为先验，旨在进一步改进该过程。

Semantic Supervision in Scene Text Editing and Generation

除了超分辨率之外，语义特征也被引入到编辑和生成任务中。作为先验信息，Wang 等人利用字符嵌入来促进他们的图像到图像的转换。针对文本嵌入呈现的细微差别，Liu 等人强调了忽略字符级输入特征对视觉文本保真度的重大影响。他们的研究表明，从字符盲输入标记转变为字符感知标记显著提高了视觉文本的拼写精度。此外，值得注意的是，许多场景文本操作方法隐式学习语义特征，通常由辅助识别损失引导。

Text Style Feature

文本样式特征包括一系列固有属性，例如字体类型、颜色、大小和形状，在与样式相关的文本处理方法中起着至关重要的作用。这些样式既可以使用深度神经网络在潜在空间中隐式学习，也可以通过固定属性显式定义，并且既有助于场景文本编辑中的视觉一致性，又有助于场景文本生成中的生动合成。

Style Reserving in Scene Text Editing

在吴等人开发的 SRNet 框架中，使用文本转换模块来更改源图像的文本内容以匹配目标文本，同时保留原始文本样式。随后，将更改后的文本内容和修复后的背景输入到融合模块中，以生成最终的编辑文本图像。同时，张等人引入了类似于 SRNet 的网络架构，但以共享权重背景生成子网络为区别。这一创新功能通过促进集成图像的创建来简化训练。
Roy 等人专注于字符级操作，提出了 STEFANN，这是一种专为部分场景文本编辑而定制的两阶段方法。该方法包含两个子网络：FANnet 和 Colornet。FANnet 的功能是接收字符区域图像和指定的目标字符代码，随后生成保留源字体样式的目标字符图像。另一方面，Colornet 使用生成的目标图像和原始字符图像对字符进行着色。
为了弥补完整注释数据的稀缺性，自监督训练方案被用于获得对文本风格的鲁棒理解。Lee 等人引入了广泛使用真实世界图像的 RewriteNet 框架。其基本机制是通过双编码器将文本图像编码为单独的内容和风格特征，然后在解码器中合并这些特征。与传统的文本编辑方法不同，Krishnan 等人提出了文本风格画笔 (TSB)，这是一种自监督技术，无需目标风格监督。该方法利用大量真实世界数据来弥合领域差距。与将文本编辑分为风格转换和背景重建等离散阶段的传统方法不同，TSB 采用了更为集成的方法。Yang 等人扩展了 TSB 在提取前景和背景风格方面的能力，在跨语言场景文本编辑任务方面进行了创新。他们的模型架构巧妙地将文本内容和风格的学习分开，提高了操作场景文本的精确度和多功能性。
除了单纯的文本编辑之外，Su 等人还提出了一项开创性的任务，称为场景风格文本编辑，这种方法不仅允许用户更改文本内容，还允许用户更改其风格。为了促进这项独特的任务，该团队开发了一个背景修复模块，负责提取背景纹理。随后，他们引入了一个前景风格编辑模块，将风格编码到高维潜在空间中。在这个空间中，每个编码代码向量代表一个独特的文本风格属性，包括旋转角度、字体类型和颜色等因素。因此，通过操纵这个潜在空间中的代码向量，可以实现文本风格编辑。
随着扩散模型的发展，文本风格也可以用语言提示来表示，Ji 等人在此基础上通过双编码器架构解决场景文本编辑问题，其中使用 CLIP 文本编码器进行风格控制。此外，其他基于扩散的方法通过修复或条件合成实现了文本编辑的风格保留，有效地克服了早期方法的缺点。然而，这些方法的泛化能力有限，对看不见的风格字体表现出无能为力。

Style Transferring in Scene Text Generation

GAN 已展现出强大的风格迁移能力，并已应用于场景文本合成。Zhan 等人通过他们的 SFGAN 引入了几何和外观空间中的合成保真度概念。该模型将几何合成器与外观合成器相结合：前者充当空间变换网络，将背景图像与前景文本整合在一起，以确保文本与背景平面对齐，而后者使用循环结构来促进合成图像域和真实图像域之间的过渡。与此同时，Fang 等人提出了 STS-GAN，这是一种完全基于学习的方法，具有由字符生成器和单词生成器组成的双阶段结构。
字符生成器以字符标签和潜在向量作为输入，利用条件对抗损失和风格损失创建风格化的字符图像。然后，单词生成器处理组合的单词图像，通过 L1 和对抗损失在降噪和保留字符结构之间取得平衡。此外，Fogel 等人介绍了 Scrabble-GAN，它采用半监督方法生成风格和词汇各异的手写文本图像。该架构具有单独的字符生成器、风格控制鉴别器和文本识别器，以确保可读性。

Text Spatial Context Feature

文本特征不仅包括固有特性，还包括表示文本与其周围环境之间关系的空间上下文。这包括但不限于背景纹理、轮廓和深度。文本的空间上下文特征可以作为辅助先验，增强文档图像去扭曲、文本图像去噪和场景文本生成等任务。采用深度估计和轮廓预测等技术来获取这种空间上下文信息。

3D Reconstruction in Document Image Dewarping

背景空间信息是文本空间上下文的一个重要特征，在文档图像去扭曲中被用作校正的先验。传统的手工制作的 DID 方法依赖于 3D 重建技术，通常涉及两个步骤：估计扭曲文档页面的 3D 形状，然后将其展平。专用设备，如结构化照明系统、激光测距扫描仪和结构化激光束，用于收集必要的 3D 数据。对于展平阶段，开发了各种方法来近似纸张变形的物理模型。 Brown 等人引入了一种基于粒子的质量弹簧模型。Pilu 等人 [142] 使用适用的表面估计变形。在此基础上，Brown 等人使用保角映射来参数化文档的 3D 表面以校正扭曲的图像。 Zhang 等人实现了基于距离的惩罚度量，Meng 等人应用了可扩展曲面插值。然而，由于需要额外的硬件，这些方法在日常使用中实用性有限。
在深度学习时代，3D 信息被用作网络训练的中间监督，以物理为基础的方式解开问题。利用包含 3D 坐标图的 Doc3D 数据集，Das 等人首先在输入文档图像上回归 3D 形状，然后对最终结果执行纹理映射。Das 等人和 Feng 等人进一步继承了该策略，但架构设计不同，增强了连接扭曲图像和校正图像的空间属性的表示学习。

Background Estimation in Text Image Denosing

在噪声图像的恢复中，背景估计至关重要，其中各种研究都侧重于光照校正。Lin 等人引入了一个实质性的合成数据集和一个双组分神经网络。该网络包括经过对抗训练的背景估计网络和阴影去除网络。后续研究使用各种标准（例如感知损失）和包括 Transformers 在内的架构增强了光照校正网络。Wang 等人设计了一种光导网络，该网络对非配对数据采用循环一致性约束。该网络旨在解决文档光照问题，而不会引起不必要的色移。基于这些进展，Zhang 等人提出了大规模真实文档数据集 RDD，并使用堆叠 U-Net 架构，并通过背景提取模块进行了增强，以更好地适应真实世界图像。

Background Attributes Integration in Scene Text Generation

大多数场景文本生成方法都充分探索了空间上下文，以实现文本在场景中的视觉说服力和连贯性。Jaderberg 等人介绍了一种名为 MJSynth 的合成文本生成引擎，旨在模拟场景文本图像的分布。MJSynth 包含几个关键模块，每个模块都有助于提高所生成文本的真实性。这些模块包括字体渲染、边框/阴影渲染、基础着色、投影失真、自然数据混合和噪声添加。在字体渲染模块中，选择文本字体和其他属性，并在前景图像层上使用水平线或随机曲线渲染单词。
文字的边框或阴影效果在边框/阴影渲染模块中的可选图像层上渲染。文字的边框或阴影效果在边框/阴影渲染模块中的可选图像层上渲染。基本着色过程包括用从自然图像衍生的簇中采样的均匀颜色填充三个图像层——前景、背景和边框/阴影。投影失真模块对前景层和边框/阴影层应用随机变换，引入变化。在最后两个模块中，从 IC13 和 SVT 等数据集中随机采样的图像裁剪被混合到图像层中，增加了逼真的纹理。噪声也被引入到三个图像层的最终合成中。Yim 等人介绍了 SynthTIGER，这是一个合成文本图像生成器，它遵循与 MJSynth 类似的流程，但也有一些明显的区别。SynthTIGER 包含五个关键程序：文本形状选择、文本样式选择、变换、混合和后处理。与 MJSynth 的一个显著区别是 SynthTIGER 向词框图像添加了噪声文本，模拟了从场景图像中裁剪的文本区域的外观，增强了合成文本的真实感。即使使用较少量的合成数据，SynthTIGER 在场景文本识别方面的表现也得到了改善。
Gupta 等人介绍了 SynthText，这是一种与传统词框生成方法不同的合成引擎。SynthText 通过独特的管道合成场景文本图像，有利于文本检测和识别任务。最初，它将图像分割成连续的区域，同时从 CNN 获得密集的逐像素深度图。后续模块估计这些区域的局部表面方向。然后，SynthText 将字体和颜色各异的文本渲染到所选区域，以适应派生的表面方向。实证结果显示了利用这种高保真合成数据的优势。在此基础上，Chen 等人使用 SynthText 管道扩展其数据集，特别是使用于检测交通信息标志上文本的训练数据多样化。
在 SynthText 框架的基础上，Zhan 等人通过结合语义连贯性、显著性指导和文本外观考虑来提高合成图像质量。语义连贯性涉及根据预定义列表对语义分割结果进行分类，选择适合文本混合的区域。显著性指导来自专用模型生成的显著性图。对于文本外观，使用来自 IC13 等数据集的图像块。背景区域的 HoG 特征以及文本区域的 Lab 模式的平均值和标准差配对在一起。这些配对特征指导文本混合的亮度和颜色。随后，Zhang 等人将该过程简化为两个主要模块：区域检测和文本嵌入。检测模块估计语义分数图和混合轮廓以识别最佳文本区域。同时，嵌入模块使用几何变换和 GAN 生成器实现文本与图像的无缝集成。
与在静态 2D 图像上叠加文本的方法不同，在 3D 场景中渲染文本需要使用更复杂的属性，包括变形、阴影和遮挡。Liao 等人首创了 SynthText3D，这是一种使用虚幻引擎 4 中的 30 个 3D 场景模型进行虚拟场景文本图像合成的方法。该方法包含四个模块：相机锚点生成、文本区域生成、文本生成和 3D 渲染。文本区域生成模块的一个关键特性是直接提取表面法线图和法线边界图，并辅以随机二分搜索算法来识别每个表面上可用的文本区域。此外，2D 文本框经过几何变换以投影到 3D 区域，将不同的照明效果集成到场景中。
Long 等人开发了 UnrealText，这种方法强调与虚拟场景进行更多交互，以提高多样性和真实感。最初，由光线投射支持的随机游走算法会自动从不同视点捕获图像。随后，将光照条件随机化以模拟不同的环境。在文本区域生成中，投影初始提议的中心点，并生成并扩展重新初始化的正方形（其水平边与重力方向正交），以定义更精确的文本区域。

BENCHMARK DATASETS

视觉文本处理任务和算法的快速发展伴随着训练和评估数据集的大幅增长。本节概述了主要数据集，并在下表中总结了主要特征，并在以下讨论中进行了全面回顾。
- 代表性视觉文本处理数据集的统计数据，包括训练和测试数据大小、主要语言、来源（其中“Syn”表示合成，“Real”表示真实世界）、类型（无论是在场景、文档还是设计海报中捕获）、范围（指原始图像或裁剪区域）、方法（人工注释或模型生成）。

Dataset for Text Image Super-resolution

TextZoom ：早期的文本图像超分辨率方法主要依赖于合成生成的数据集。通常，这些数据集是通过对高分辨率图像进行下采样的高斯模糊创建的，这种方法很难复制真实场景中遇到的复杂退化过程。因此，用这些数据训练的模型通常无法推广到实际的文本图像。为了克服这个限制，Wang 等人引入了第一个真实世界数据集 TextZoom，它包含从两个通用图像超分辨率数据集收集的具有不同焦距的摄像机捕获的 LR-HR 文本图像对：RealSR 和 SRRAW 。 TextZoom 包含 17,367 个训练对和 4,373 个测试对，后者分为三个子集以表示不同的模糊程度，即简单（1,619 个样本）、中等（1,411 个样本）和困难（1,343 个样本）级别。还提供了文本标签、边界框类型和原始焦距。

Dataset for Document Image Dewarping

DocUNet ：DocUNet 数据集由 Ma 等人提出，并用作比较的基准。该数据集收集了 65 份由移动摄像头拍摄的纸质文件，并以两种扭曲形状进行收集，共计 130 幅图像，同时将相应的平面扫描图像作为基本事实。文件包括收据、信件、传单、杂志、学术论文和书籍等各种类型。为了保证基准中扭曲的多样性，包括简单情况（例如，只有一处折痕或一处折叠的文件）和复杂情况（例如，褶皱严重的文件）。请注意，基准既包含原始照片，也包含紧密裁剪的照片，后者通常用于评估。
DRIC ：与之前的方法，基于局部刚性织物的假设直接在 2D 中合成扭曲的训练图像不同，Li 等人通过渲染引擎在具有不同光照和相机设置的 3D 空间中生成数据。具体来说，各种电子文档图像被收集为平坦的 GT 值，并投影到预定义的扭曲表面，包括透视、曲线和折叠。此外，随机调整曝光和伽马校正以获得最终的渲染图像。 GT 值流以 RGB 图像格式存储，其中 R 和 G 通道是 2D 纹理坐标，B 通道是二进制掩码，指示每个像素是否属于文档。
Doc3D :Das 等人以相同的物理基础方式，使用真实文档图像和渲染软件以混合方式创建了 Doc3D 数据集。他们首先捕获变形纸张的 3D 网格，然后在软件中使用各种纹理渲染图像。总的来说，Doc3D 数据集包含 100,000 张具有丰富注释的照片级逼真图像，包括 3D 坐标图、深度图、法线、UV 图和反照率图。
DIR300 :为了在测试集中引入更复杂的背景和各种照明条件，Feng 等人构建了 DIR300 数据集，其中包含 300 张真实文档照片。具体来说，这些图像是使用不同的手机在不同场景下拍摄的，这些场景有多种扭曲，包括弯曲、折叠、平坦和严重皱巴巴的文档。在收集扭曲图像之前，先捕获真实图像。
WarpDoc :由 Xue 等人收集，WarpDoc 包含 1,020 张不同纸张材质、布局和内容的文档相机图像。这些图像被扭曲成六种变形类型，包括透视、折叠、曲线、随机、旋转和不完整页面，用于细粒度文档恢复方法评估。

Dataset for Scene Text Removal

SCUT-Syn ：为了去除场景文本，SCUTSyn 利用文本合成技术在背景场景图像上生成了总共 8,800 个样本。该数据集分为包含 8,000 幅图像的训练集和包含 800 幅图像的测试集。
SCUT-EnsText ：为了弥合合成图像与真实世界数据之间的差异，刘等人引入了 SCUT-EnsText。该数据集包含 3,562 张不同的图像，来源于公共场景文本识别基准。数据集中的每张图像都经过精心注释，以提供视觉上连贯的擦除目标，并在 Adobe Photoshop 技术的帮助下由人工完成。
来自 Bian 等人的数据：Bian 等人 [Scene text removal via cascaded text stroke detection and erasing] 整理了一个广泛的现实世界多语言数据集，包含 12,120 幅图像，其中 11,040 幅用于训练，1,080 幅用于测试。该数据集的特点是无文本图像、区域蒙版和文本笔划蒙版等注释。使用 Photoshop 中的修复工具手动删除收集到的图像中的文本，以提供无文本图像作为基本事实。
PosterErase ：PosterErase 是从电子商务平台收集的，主要以带有中文文本的海报为主。该数据集包含 60,000 张训练图像和 400 张测试图像。每幅图像都附有详细的注释，包括边界框信息、文本内容和经过人类专家精心处理的无文本图像。
Flickr-ST ：Yu 等人引入了一个由 3,004 幅图像组成的真实世界数据集，其中 2,204 幅用于训练，800 幅用于测试。该数据集的特色包括详尽的注释，例如删除文本的图像、像素级文本蒙版、字符实例分割标签、字符类别标签和字符级边界框标签。

Dataset for Scene Text Editing

基于合成文本的数据：受文本合成技术的启发，合成数据已被设计用于帮助训练场景文本编辑模型。具体来说，可以使用各种字体、颜色和变形参数来生成风格化的文本，然后将其叠加到背景图像上。这种方法可以获取包含背景、前景文本和文本骨架的地面实况。值得注意的是，为训练和评估而生成的数据量因所采用的方法而异。
Tamper ：Qu 等人生成了 15 万张带标签图像用于监督训练，以及另外 2000 张配对图像，构成了用于训练场景文本编辑模型的 Tamper-Syn2k 基准。除了合成数据集之外，来自成熟的场景文本检测和识别基准的真实数据也被用于测试，例如 ICDAR 2013 、ICDAR 2015 、SVT 、SVTP 、IIIT 、MLT 2017 、MLT 2019 、CUTE 80 和 COCO-Text 。从这些数据集中，他们精心挑选了总共 7,725 张图像（排除严重扭曲或难以辨认的图像），形成了用于测试的 Tamper-Scene 基准。

Data for Scene Text Generation

大多数场景文本图像生成方法不需要专门注释的数据集进行训练，但某些基于生成模型的方法除外，这些方法需要大规模文本图像配对数据。例如，分别引入了 MARIO 和 LAION-Glyph 基准。
MARIO ：MARIO-10M 数据集包含约 1000 万个高质量、多样化的图像文本对，这些对来自各种数据源，包括自然图像、海报和书籍封面。它为每幅图像提供详细的 OCR 注释，包括文本检测、识别和字符级分割。具体来说，DB 、PARSeq 和 U-Net 等工具分别用于检测、识别和分割。MARIO-10M 的总容量为 10,061,720，其中 10,000,000 个样本分配给训练集，61,720 个样本指定为测试集。
LAION-Glyph ：LAION-Glyph 数据集的开发涉及一系列步骤。首先，利用为条件生成模型设计的大规模基准数据集 LAION5B，应用美学分数预测模型滤除低质量图像。然后，通过 OCR 工具识别富含文本的图像，其中还包括相关注释，如文本边界框和抄本。随后，使用 BLIP-2 模型生成详细字幕。出于实际目的，LAION-Glyph 数据集分为三个子集：LAION-Glyph-100K、LAION-Glyph-1M 和 LAION-Glyph-10M，每个子集均使用随机分布方法创建。

PERFORMANCE COMPARISON

在本节中，我们将对所讨论的方法进行表格化的性能分析。对于每个领域，我们都选择了广泛可用的数据集来进行基准测试。性能指标主要来自原始出版物，但有例外情况会及时注明。

Text Image Super-resolution

Evaluation Metrics

为了评估超分辨图像的保真度，基准评估通常采用峰值信噪比 (PSNR) 和结构相似性指数测量 (SSIM) 指标。此外，为了评估下游任务的性能，定量采用文本识别任务的识别准确率。

Performance Comparison

下表全面展示了文本图像超分辨率方法的有效性。值得注意的是，表格的最后一行表示 GT 高分辨率图像的识别准确率。根据表格，TSEPG 成为文本图像超分辨率领域的领先方法，在识别准确率（64.68%）和图像质量（PSNR 为 22.25，SSIM 为 0.7978）方面均表现出色。然而，与高分辨率图像实现的 86.6% 的识别准确率（代表理论上限）相比，该领域的未来研究仍有相当大的进步空间。
- TextZoom 上的文本图像超分辨率方法。粗体表示最佳结果，下划线表示次佳结果，以下相同。

Document Image Dewarping

Evaluation Metrics

对于 DID 定量评估，使用了两个关键指标：图像相似度和 OCR 准确度。图像相似度：多尺度结构相似度 (MS-SSIM) 通过高斯金字塔在多个尺度上采用 SSIM，评估重建图像和真实图像之间的全局相似度。局部扭曲 (LD) 计算从重建到真实扫描图像的密集 SIFT 流，以衡量局部细节的校正质量。Ma 等人进一步引入了对齐扭曲 (AD)，它在评估之前将未扭曲的图像和扫描图像对齐，并根据梯度幅度对误差进行加权，从而针对 MS-SSIM 和 LD 固有的局限性提供更高的鲁棒性和准确性。OCR 准确度：在 DocUNet 中选定的富文本图像上计算编辑距离 (ED) 和字符错误率 (CER) ，以衡量重建的识别质量。然而，由于 OCR 引擎选择和图像数据集的差异，OCR 准确度比较可能具有挑战性，应仅供参考。

Performance Comparison

为了在文档图像去扭曲领域进行性能基准测试，我们选择了 DocUNet 和 DIR300 ，它们是该领域使用最广泛的两个数据集。下表显示了各种 DID 方法的定量性能比较。早期的方法如 DewarpNet 专注于 3D 构造和平坦化，难以处理更详细的信息。后来的方法开始关注全局特征（如前景图像）和局部特征（如文本行、控制点、布局），取得了显着的进步。值得注意的是，[Layout-aware single-image document flattening] 提出的迄今为止最先进的解决方案不仅利用了全局和局部特征，而且使用了比以前更真实的数据集，在 MS-SSIM 中获得了 0.526 的分数，在 LD 中获得了 6.72 的分数。这比早期的 DID 方法有了显着的改进。
- DocUNET 和 DIR300 上的文档图像去扭曲性能比较。∗ 表示来自每种方法原始论文的实验结果，使用了不同的 OCR 引擎。† 表示来自 [LayoutTransformer] 报告的实验结果，使用 PyTesseract v0.3.9 进行 OCR 测试。

Scene Text Removal

Evaluation Metrics

为了评估场景文本移除技术，采用了两种评估协议：Detection-Eval 和 ImageEval 。Nakamura 等人开发的 Detection-Eval 指标侧重于文本区域移除的彻底性。该指标使用辅助文本检测器收集文本移除后的检测结果，并根据 ICDAR-2013 和 ICDAR-2015 标准评估准确率、召回率和 F 分数，确保与文本定位基本事实一致。通常，预训练的 CRAFT【Character region awareness for text detection】被用作场景文本检测器，特别是用于评估 SCUT-EnsText 的性能，并且优先使用 T-IoU 度量来提高结果准确性。相比之下，定义的 Image-Eval 指标强调了生成图像的质量，包括各种指标，例如：(i) L2 误差或均方误差 (MSE)；(ii) PSNR，用于峰值信噪比比较；(iii) SSIM ，用于测量结构相似性；(iv) AGE，计算真实图像和计算的背景图像之间的灰度绝对差的平均值；(v) pEPs，计算错误像素的百分比；以及 (vi) pCEPS，计算聚类错误像素的百分比（四连通邻居也是错误像素的像素数） SSIM 和 PSNR 的值越高，或 AGE、pEPs、pCEPS 和 MSE 的值越低，表示性能越好。此外，Wang 等人引入了 BI 度量和 EE 度量，重点关注背景纹理保存和文本擦除的完整性。对于现实世界的数据集，由于缺乏真实背景图像，因此只有 Detection-Eval 方法适用。人类视觉评估也在真实数据集上补充了这些评估，提供了有效性的定性比较。

Performance Comparison

各种场景文本去除方法的有效性在 SCUT-EnsText 和 SCUT-Syn（表 5）上得到展示，这两个方法被广泛用于该领域的性能基准测试。在 SCUT-Syn 数据集上，MBE 凭借其集成策略在 PSNR 和 SSIM 方面优于其他方法。相比之下，可以看出 ViTEraser 在 SCUT-EnsText 中的大多数指标中都取得了最佳性能。这主要是因为 ViTEraser 采用了自训练方案进行预训练，从而从真实世界数据中学习了更多知识。
- SCUT-EnsText 和 SCUT-Syn 上的场景文本去除性能比较。

Scene Text Editing

Evaluation Metrics

与场景文本删除类似，Image-Eval 评估指标（例如 MSE、PSNR、SSIM 和 frechet 初始距离 (FID) ）应用于合成数据集。PSNR 和 SSIM 值越高，MSE 和 FID 分数越低，则表示性能最佳。在现实世界场景文本图像的背景下，场景文本编辑的有效性通过文本识别 (SeqAcc) 的准确率间接评估。

Performance Comparison

必须认识到，许多场景文本编辑方法在训练和测试阶段主要使用各种合成数据集，这会导致性能评估中出现潜在偏差。为了促进更平衡、更公平的评估，我们的结果完全来自 Qu 等人设定的基准，如表 6 所示。早期的方法，如 Pix2Pix ，专注于一般风格迁移，无法处理细粒度的文本图像。通过分而治之的模型设计，后期的方法显著降低了模式学习的难度，并在图像视觉质量和文本渲染精度方面取得了显著的提升。利用先进的扩散模型，VTNet 与其他方法相比表现出卓越的性能。
- Tamper-Syn2k 和 Tamper-Scene 上的场景文本编辑性能比较。

Scene Text Generation

Evaluation Metrics

场景文本生成任务的主要目标是促进场景文本检测和识别模型的大规模预训练。此任务的有效性通过在生成的数据集上进行预训练后检测或识别模型的准确度改进来衡量。对于创建文本边界框图像的技术，文本识别数据集上的识别准确度提高表示生成数据在数据集内具有更丰富、更清晰的特征表示。
相反，对于生成全场景文本图像的方法，在文本检测数据集上检测准确率的提高表明在文本区域分布选择和真实变形渲染方面性能优异。值得注意的是，一些文本转图像的工作通过各种指标来评估文本渲染质量。例如，FID 用于比较合成图像与真实图像的分布。此外，使用 OCR 评估和 CLIPScore 来评估即时保真度，后者测量从 CLIP 得出的图像和文本表示之间的余弦相似度。至关重要的是，人工评估也在这项任务中发挥着重要作用。在这些评估中，参与者被要求使用结构化问卷对生成的图像的文本渲染质量进行评分，从而为这些方法的有效性提供主观但至关重要的视角。

Performance Comparison

由于大多数场景文本生成方法旨在辅助文本检测和识别，我们在表 7 中展示了实验结果，其中详细列出了使用各种合成数据集的检测和识别结果。在检测方面，VISD 由于其合理的语义选择机制，与 SynthText 相比表现出了显著的改进。UnrealText 由于其多样化的文本样式和复杂的背景，在所有基准测试中都取得了最佳结果。在识别方面，除了 UnrealText 之外，SyntheTiger 也展示了强大的能力，与现实世界数据更加吻合。

OPEN CHALLENGES

尽管视觉文本处理最近取得了进展，但仍存在许多挑战。本节概述了尚未解决的关键问题和潜在的未来趋势。

Training Data

带标签的真实世界训练数据的稀缺严重阻碍了视觉文本图像处理方法的发展。例如，在场景文本编辑任务中，获取具有一致源样式的成对源数据和目标数据是一项重大挑战。此外，从网络获得的训练数据经常受到噪声污染并受到场景限制。例如，用于文本图像生成的基准（如 LAION ）主要包括海报和网络数据，缺乏足够的自然场景图像。因此，汇编全面、高质量的数据集仍然是该领域尚未解决的问题。
未来的趋势可能以优化质量和数量之间的权衡为中心。当前的问题是，模型在广泛的数据集上采用较弱的监督效果更好，还是在较小且高质量的数据集上采用较强的监督效果更好。在前一种情况下，有可能发展自我监督或半监督技术来利用大量训练数据的潜力。对于后者，通过辅助方法（例如领域自适应）增强模型在数据稀缺情况下的通用性可能是一个有价值的方向。

Evaluation Metrics

如前所述，流行的视觉文本处理技术通常依赖 Image-Eval 和 Det/Rec-Eval 指标进行评估。然而，由于缺乏真实值对，某些 Image-Eval 指标（如 PSNR 和 SSIM）的适用性受到限制。此外，由于领域从自然图像转移到视觉文本图像，FID 等通用图像和视频质量指标可能并不完全适合文本图像评估。相反，由于不同方法中使用了各种检测器或识别器，Det/Rec-Eval 指标可能会导致比较结果出现偏差。此外，超参数和数据增强技术的选择会显著影响结果。
在这一领域取得进步的一个明显途径是开发针对文本图像领域的增强指标。这些指标应该是多功能的，并适用于各种文本图像，包括多语言类型（例如英语和中文）、各种形状（包括水平和定向文本）和不同环境（如海报和街景）。此外，它们应该与人类判断密切相关，以最少的人为干预促进方法开发的加速和自主进步。

Efficiency and Complexity

效率仍然是视觉文本处理技术的一个关键问题。虽然许多研究都宣称准确率大幅提升，但它们往往忽略了模型复杂度（FLOPS）和推理速度（FPS）的报告。我们认为，这些方法中的大多数尚未找到准确率和效率之间的最佳平衡。这主要是由于固有的架构复杂性，例如 Transformers 中的自注意力机制导致复杂的计算，或扩散模型中的慢采样率阻碍了快速推理。此外，某些多阶段方法没有考虑整体系统效率，这限制了它们的实际适用性。例如，文本删除方法应该无缝地结合文本检测机制来生成文本掩码。
提高效率的一种实用方法是开发新颖、精简的架构，以减少扩散模型中每个去噪步骤所需的时间并降低 Transformer 中的计算复杂度。模型蒸馏等技术也致力于提高效率。此外，使用端到端架构可以消除对辅助模块的需求，从而进一步简化流程。

Extension to Videos

虽然由于技术进步和数据可用性，二维视觉文本图像处理已经取得了长足的进步，但在视频等高维环境中的发展却相对有限。唯一的视频文本处理方法是 STRIVE ，旨在进行视频场景文本编辑。基于视频的视觉文本处理面临着多方面的挑战。首先，数据可用性和质量带来了巨大的挑战。尽管原始视频数据丰富，但注释这些数据以捕捉运动和时间依赖性是一项复杂的任务。缺乏高质量的注释数据限制了用于处理视频中视觉文本的稳健且可泛化的模型的开发。其次，网络架构设计的复杂性带来了另一个障碍。高维数据不能像依赖离散像素值的二维图像那样简单地处理。相反，它们需要更复杂的表示来管理对于解释视频中的时间动态和空间关系至关重要的远程信息。
未来的努力必须侧重于利用大量的在线视频来整理高质量的视频数据集，这项任务需要大量的工程设计和开发专用的自动整理工具。此外，还必须设计出擅长管理高维数据（类似于一般的视频处理模型）的视频文本处理架构，同时还要处理文本的各种属性。

Unified Framework

当代视觉文本处理研究通常集中于为孤立任务设计的框架，而忽略了这些任务的相互关联性。实际上，用户通常表现出多方面的需求。例如，在单个场景文本图像中，用户可能需要执行删除、编辑和生成文本等并发操作。此外，用户的兴趣通常超出文本元素的范围，涵盖场景中的各种对象。具有处理文本能力但不了解更广泛场景构成的模型会受到很大限制。
未来的研究应侧重于消除相互关联的视觉文本处理任务之间的障碍，以开发一个有凝聚力和适应性强的框架为目标。例如，场景文本擦除可以被视为更广泛的场景文本处理程序中的中间步骤。同时，有必要开发一个通用的图像处理框架。Peng 等人提出了一个统一的框架来解决删除、分割和篡改检测问题。然而，框架应该考虑更多的任务，这些任务将擅长同时增强、改变和合成图像中的文本和常见对象。为了实现这一目标，必须改进大型模型的调整方法，确保文本处理的增强不会损害其核心功能。

User-friendly Interaction

当前的视觉文本处理方法通常处理图像中的所有文本区域。但是，用户通常需要根据自己的需求进行修改。迄今为止，在文本删除和编辑领域，很少有研究使用条件模型或广泛的语言模型来促进精确的内容和风格迁移。尽管如此，此类研究仍处于初始阶段。在各种任务中整合各种提示或输入以进行定制处理的方法提供了重要的研究机会。
集成视觉模型和多模态语言视觉框架的出现使得处理各种文本和视觉提示成为可能。诸如 SAM 之类的模型现在支持诸如点或边界框之类的视觉提示来识别感兴趣的区域，而高级语言模型可以解释用户提供的自然语言指令以得出精确的图像处理命令。此外，诸如上下文学习和指令调整之类的方法有助于将个性化的用户指令转化为特定的视觉文本图像处理结果。

CONCLUSION

在本文中，我们全面回顾了视觉文本处理任务的最新进展，这是我们所知的第一次专门调查。我们提供了一个分层分类法，涵盖了从图像增强和恢复到图像处理的各个领域，然后是特定的学习范例。此外，我们深入研究了与主流方法密切相关的文本特征，包括结构、笔画、语义、风格和空间背景。此外，我们总结了基准数据集，并汇总和比较了现有方法在各种视觉文本处理任务中的表现。最后，我们分享了我们对视觉文本图像处理的挑战和未来方向的看法。