【读点论文】ODM: A Text-Image Further Alignment Pre-training Approach for OCR结合文本和图像特征去预训练主干网络。需要更多公开信息-CSDN博客

本文链接：https://blog.csdn.net/weixin_43424450/article/details/145145526

ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting

Abstract

近年来，文本-图像联合预训练技术在各种任务中都表现出了良好的效果。然而，在光学字符识别（OCR）任务中，将文本实例与图像中相应的文本区域对齐是一项挑战，因为它需要文本与OCR-Text（将图像中的文本称为OCRText以区别于自然语言中的文本）之间的有效对齐，而不是对整个图像内容的整体理解。 在本文中，我们提出了一种称为OCR-Text去风格化建模（ODM）的新预训练方法，该方法可以根据文本提示将图像中发现的多种文本风格转换为统一的风格。借助 ODM，我们实现了文本与 OCR-Text 之间更好的对齐，并使预训练模型能够适应复杂多样的场景文本检测和识别任务。此外，我们还专门为 ODM 设计了一种新的标记生成方法，并将其与我们提出的 Text-Controller 模块相结合，以解决 OCR 任务中的注释成本挑战，从而允许大量未标记数据参与预训练。在多个公共数据集上进行的大量实验表明，我们的方法显著提高了性能，并且在场景文本检测和识别任务中的表现优于当前的预训练方法。代码可在 ODM【github.com】上找到。ODM：用于场景文本检测和定位的文本-图像进一步对齐预训练方法。
论文地址：[2403.00303v2] ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting 美团 CVPR2024
核心思想：ODM通过基于文本提示的像素级图像重建建模，将图像中的多样化文本样式转换为统一风格，以实现文本与OCR-Text之间的更好对齐。像素级重建：ODM采用像素级重建方法，而非传统的三通道重建，以重建一个去除了文本样式的二进制图像，强化文本与OCR-Text之间的对齐。预训练模型适应性：通过使用统一风格的像素级标签去风格化OCR-Text，预训练模型能够更好地适应文本检测和识别任务中的多样化场景。具体包括以下几个关键部分：
- OCR-Text Destylization：通过像素级重建方法，生成去风格化的二值图像，以去除文本的风格并强化文本与OCR-Text之间的对齐。
- Text-Controller模块：引导图像编码器识别和解释OCR-Text，促进文本与OCR-Text之间的对齐。该模块包括Drop-Text和Noise-Text两种策略，通过随机选择输入OCR-Text的比例和添加噪声，增强模型对文本与OCR-Text对齐的理解。
- 标签生成方法：针对ODM设计了一种新的标签生成方法，利用字体文件、文本和位置标签生成统一字体风格的二值图像，解决数据集中像素级标签不足的问题。
使用ResNet50作为图像编码器提取视觉特征，6层Transformer作为文本编码器提取文本特征，然后通过交叉注意力机制将文本特征与图像特征进行交互，最后利用简单的解码器（FPN层上采样和1x1卷积）重建去风格化的二值图像。在ODM（OCR-Text Destylization Modeling）中，交叉注意力机制是实现文本与图像特征对齐的关键技术之一。促进特征对齐：通过交叉注意力机制，模型能够将文本特征与图像特征进行有效对齐，使得文本提示能够更好地引导图像特征的提取和重建。这对于OCR任务中的文本检测和识别至关重要，因为它有助于模型准确地定位和识别图像中的文本区域。提高模型适应性：交叉注意力机制使得模型能够灵活地处理不同风格和形态的文本，在复杂场景中具有更好的鲁棒性。例如，即使图像中的文本风格与训练数据中的风格不同，模型也能通过交叉注意力机制找到与文本提示相匹配的特征，从而实现准确的去风格化重建。
ODM模型通过预训练的方式赋能你的OCR模型，使其在场景文本检测和识别任务中表现得更好。赋能流程（个人理解）
- 预训练ODM模型：使用大量合成数据集（如SynthText）和真实场景文本数据集对ODM模型进行预训练。预训练的目标是学习文本与OCR-Text之间的对齐关系，以及如何将图像中的文本风格转换为统一的风格。预训练完成后，得到一个具有较好文本特征提取和对齐能力的模型，其中的特征提取器（如ResNet50）和文本编码器（如Transformer）已经具备了丰富的文本信息表示能力。
- 特征提取器替换或融合：将预训练好的ODM模型中的特征提取器（如ResNet50）替换到你的OCR模型中，或者与你的OCR模型中的特征提取器进行融合。这样，你的OCR模型就可以利用ODM模型在预训练过程中学到的文本特征提取能力。如果你的OCR模型采用的是端到端的结构，可以在模型的适当位置（如特征提取阶段）引入ODM模型的特征提取器，使其在处理图像时能够更好地提取文本特征。
- 微调OCR模型：在将ODM模型的特征提取器集成到你的OCR模型后，需要在特定的场景文本检测和识别数据集上对整个模型进行微调。微调的目的是让模型更好地适应实际应用场景，进一步优化文本检测和识别的性能。微调过程中，可以调整模型的超参数（如学习率、批次大小等），并使用合适的损失函数和优化算法，以获得最佳的训练效果。

Introduction

光学字符识别 (OCR) 因其在自动数据输入、文档分析、即时翻译等方面的出色表现，在计算机视觉领域引起了广泛关注。大多数现有的获取 OCR 结果的方法都涉及一个两阶段过程，包括文本检测模型和文本识别模型，或者直接使用端到端文本识别模型。此外，许多这些方法通过在 ImageNet 数据集上进行预训练来初始化模型。
预训练技术最近因其在各种计算机视觉任务中的出色表现而备受关注。计算机视觉中两种常用的预训练方法是：
- （1）蒙版图像建模 (MIM) 预训练，其重点是仅从图像中学习视觉情境化表征。该方法通常应用于视觉主导的任务，例如图像分类。
- （2）掩蔽语言模型 (MLM) ，它利用文本和图像作为输入，并从两种模态中提取语义信息。
然而，当将这些预训练方法应用于 OCR 领域时，会出现两个具体问题：
- （1）使用基于 MIM 的方法，有时图像中的文本会被掩蔽的块完全遮挡，主要是由于文本的比例相对较小。这可能会妨碍预训练模型有效学习文本特征信息的能力。
- （2）基于 MLM 的方法虽然通过掩蔽文本输入实现了弱监督训练，但在训练期间没有明确利用文本位置信息。这可能导致文本和图像特征之间的无效对齐，以及对图像信息的处理不充分。这些挑战凸显了对专门满足 OCR 独特要求的创新方法的需求。
在本文中，我们提出了一种称为 OCR 文本去风格化模型 (ODM) 的新型预训练技术，以解决 OCR 任务中的文本-图像对齐难题。如图 1 所示，与现有的 MIM 和 MLM 方法不同，ODM 引入了一种基于文本提示的新型像素级图像重建模型。由于 OCR 任务主要关注图像中的文本，而认为其他像素不相关，因此 ODM 旨在重建一个二值图像，该图像会删除文本样式并强制文本与 OCR 文本对齐。这是通过利用像素级重建方法而不是传统的三通道重建来实现的。为了进一步增强模型对文本的理解，我们提出了一个文本控制器模块。该模块指导图像编码器识别和解释 OCR 文本，从而促进文本与 OCR 文本之间的对齐。
- 图 1. 不同预训练策略的比较。（a）通过掩码图像建模获得预训练模型，仅将图像嵌入作为输入。（b）通过掩码语言建模获得预训练模型，同时将 OCR-Text 和图像作为输入。（c）我们的方法通过 OCR-Text 去风格化建模获得预训练模型。
此外，我们设计了一种生成 ODM 标签的新方法，有效地解决了数据集中像素级标签不足的问题。通过利用字体文件、文本和位置标签，我们生成具有统一字体样式的二进制图像，如图 2 所示，其中展示了一些 OCR-Text 去风格化图像的示例。ODM 和 Text-Controller 模块中的这些改进以及新颖的标签生成方法有助于改善 OCR 任务中的文本-图像对齐。
- 图 2.上行和下行分别代表原始图像及其对应的去风格化标签。（a）、（b）、（c）和（d）分别取自 ICDAR15 、CTW1500 、TotalText 和 LSVT 数据集。
概括起来，主要贡献有三方面：
- （1）我们提出了一种简单而有效的预训练方法，称为 ODM，该方法专注于学习专门针对 OCR 文本的特征。通过使用具有统一风格的像素级标签，我们成功地对 OCR 文本进行了去风格化处理，从而提高了文本理解能力。这一关键特征信息使预训练模型能够很好地适应文本检测和识别任务中的各种场景。
- （2）我们引入了一个新颖的文本控制器模块，帮助调节模型的输出，增强其对 OCR 文本的理解。有了这个模块，我们的方法不需要输入图像和文本对之间完全匹配。因此，我们可以利用弱注释数据（即使用其他 OCR 识别引擎获取图像中的文本和位置，并根据识别置信度、文本大小等进行过滤），这可以大大降低注释成本。
- （3）在公共数据集上的实验结果表明，ODM 在一系列场景文本检测和识别数据集中表现优异，超越了现有的预训练技术。
文本-图像联合预训练技术在各种任务中展现出有希望的结果。然而，在光学字符识别（OCR）任务中，将文本实例与图像中对应的文本区域对齐是一个挑战，因为这需要有效地将文本与OCR-Text（指的是图像中的文本，为了区分自然语言中的文本而称之为OCR-Text）进行对齐，而不是对整体图像内容进行全面理解。提出一种新的预训练方法，称为OCR-Text Destylization Modeling（ODM），它将图像中的多样化文本样式转换为基于文本提示的统一样式。通过ODM，实现了更好的文本与OCR-Text之间的对齐，并使预训练模型能够适应复杂和多样化的场景文本检测和识别任务。此外，设计一种专门针对ODM的新标注生成方法，并将其与我们提出的Text-Controller模块结合起来，以解决OCR任务中标注成本的挑战，从而使更多未标记数据参与预训练。

Related Work

场景文本检测。基于深度学习的场景文本检测器主要可分为基于回归的和基于分割的方法。基于回归的方法将场景文本视为对象，并直接回归文本实例的边界框。基于分割的方法将文本检测任务视为语义分割问题。它们通过直接分割文本实例来获得分割图，然后通过后处理将各段分组到一个框中。
场景文本识别。场景文本识别代表了在单一框架内检测和识别过程的统一。许多研究通过同时学习检测器和识别器来提高性能。通过分别训练检测和识别实现了端到端实现。Mask TextSpotter 系列在识别过程中执行字符分割。ABCNet 系列通过贝塞尔曲线的控制点获取检测坐标。 SwinTextSpotter 和 ESTextSpotter 使用对应于不同注释格式的单独检测-识别头。
此外，一些方法利用 Transformer 编码器和解码器的结构，通过预测序列直接解码坐标和识别结果。 SPTS 和 SPTS V2 都通过预测文本实例的中心点来获取坐标，采用自回归方法预测中心点和单词转录标记。UNITS 可以通过提示处理各种类型的检测格式，并且可以提取超出训练文本实例数量的文本。 DeepSolo 受到 DETR 的启发，使解码器能够同时执行文本检测和识别。
视觉语言预训练。现代预训练方法通常涉及 MLM 或 MIM ，或两者的组合。MLM 任务从输入中随机屏蔽一组文本标记，并根据被屏蔽标记周围的上下文重建它们。另一方面，MIM 随机屏蔽一定比例的图像块并预测原始像素的 RGB 值。STKM 从具有图像级文本注释的数据集中学习文本知识，随后可以将获取的文本知识转移到各种文本检测器。受 CLIP 的启发，VLPT 采用细粒度跨模态交互来对齐单模态嵌入，以通过精心设计的预训练任务学习更好的骨干表示。oCLIP 提出了一种基于 MLM 的视觉语言预训练方法，该方法在文本检测和文本识别任务中取得了优异的表现。 StrucTexTv2 通过 MIM 实现预训练，它随机屏蔽输入图像中的一些文本词区域并将其输入到编码器中。
虽然这些方法已经证明了预训练在提升 OCR 性能方面的有效性，但它们要么没有利用高级文本语义信息作为输入，要么没有明确利用 OCR 文本的位置信息，因此很难实现文本和 OCR 文本之间的有效对齐。受到 MaskFeat 的启发，它通过重建掩蔽图像区域的 HOG 特征来实现预训练，并且考虑到字形已在某些 OCR 任务中使用并且被证明是有效的。我们建议利用文本控制器模块来重建文本相应的去风格化字形。这种方法可以实现文本和 OCR 文本之间的可见对齐。如图 4 所示，我们的方法可以更好地关注 OCR 文本，凸显其在学习场景文本图像任务的视觉文本表示方面的优势。
- 图 4. 所提出的文本控制器模块的说明：描绘了不同输入场景下文本分支的注意力热图（来自交叉注意力层）。 (a) 原始图像。 (b) 文本输入由三个实例组成：“Rootin”、“Ridge”和“Toymakers”。 © “Toymakers”实例被丢弃。 (d) 添加不存在的实例“Sjehf”。

Methodology

我们引入了 ODM，这是一种可以有效对齐文本和 OCR 文本的预训练技术，它利用 OCR 文本的固有特性并明确学习位置信息。我们方法的总体流程如图 3 所示。我们的网络由两个输入分支组成：图像编码器，它使用 ResNet50 从输入图像中提取特征，以及文本编码器，用于提取文本特征。通过在提取的文本和视觉特征之间应用交叉注意力，我们生成与文本特征对齐的图像特征。然后，这些对齐的特征由解码器处理以生成去风格化二进制图像。
- ODM整体架构。文本通过Text-Controller编码得到编码后的文本特征，图像通过Image Encoder编码得到编码后的图像特征。文本特征和图像特征通过cross-attention进行交互，最终输出去风格化二值图。

The Text-Controller Module

为了解决图像编码器-解码器架构在理解字符意义方面的挑战，我们引入了文本控制器模块来调节图像的特征提取，并将 OCR 文本特征与隐藏空间中的文本特征对齐。Drop-Text。通用文本编码器（例如 CLIP）旨在将文本描述作为输入进行处理，主要目标是建立文本和图像特征之间的对齐。在文本控制器模块中，通过提示来执行对解码器的控制。具体而言，当输入 OCR 文本的一部分时，模型预计只重建二进制图像的该部分，将剩余的 OCR 文本视为背景。在训练阶段，输入的 OCR 文本是随机选择的，比例从 0% 到 100% 不等。这种策略鼓励模型更多地关注将文本与相应的 OCR 文本对齐。
噪声文本。噪声（例如不准确的标签）可能会影响模型的训练效果。相比之下，我们引入了一个称为噪声文本的概念，它利用噪声来增强模型的性能。这种方法需要在文本编码器的输入中添加噪声，通过改变其标记编码值来引入不存在的 OCR 文本。这些颠覆性元素的集成使模型能够更有效地对齐文本和 OCR 文本的特征，即使在更复杂和更具挑战性的场景中也是如此。
在图 4 中，我们展示了在文本控制器模块中采用不同策略时交叉注意力对图像的性能。我们的方法实现了文本与相应的 OCR 文本之间的对齐，同时不受噪声文本的影响。
功能：该模块指导图像编码器识别和解释OCR-Text，促进文本与OCR-Text之间的对齐。Drop-Text策略：通过随机选择输入OCR-Text的比例，模型被训练以仅重建部分二进制图像，将其余OCR-Text视为背景。Noise-Text策略：通过向文本编码器的输入添加噪声，引入不存在的OCR-Text，增强模型在复杂场景下的对齐能力。
Drop-Text策略：通过随机选择输入OCR-Text的比例，促使模型更加关注文本与OCR-Text的对齐。例如，在训练过程中，输入OCR-Text的比例从0%到100%随机变化。Noise-Text策略：在文本编码器的输入中添加噪声，通过改变Token编码值引入不存在的OCR-Text，增强模型在复杂场景下的对齐能力。

OCR-Text Destylization

为了确保图像编码器能够学习 OCR 文本的基本特征，我们设计了一个简单的解码器来重建文本的去风格化字形。该解码器仅包含基本的 FPN 层上采样和 1*1 卷积。目标：去除图像中文本的风格，生成去风格化的二值图像，使得OCR任务中的文本特征更加一致和易于识别。通过像素级重建方法，将图像中的文本转换为统一风格的二值图像，强化文本与OCR-Text之间的对齐。
下图展示了使用我们提出的方法对一些真实图像的预测结果。训练数据集仅由 SynthText 组成，不包含这些真实图像。从结果可以看出，我们提出的方法有效地实现了 OCR-Text 去风格化。
- 图5.上行和下行分别代表原始图像及其对应的预测结果。
利用字体文件、文本和位置标签生成具有统一字体样式的二进制图像，通过计算多边形尺寸和估计字符大小位置来填充字符。
具体实现步骤：特征提取分为两部分，图像编码器使用ResNet50作为图像编码器，从输入图像中提取视觉特征。文本编码器设计一个文本编码器，用于提取文本特征。在论文中，文本编码器采用了6层的Transformer结构。特征交互将提取的文本特征和图像特征通过交叉注意力机制进行交互，生成与文本特征对齐的图像特征。这一步骤有助于模型更好地理解文本在图像中的位置和内容。
去风格化重建：解码器设计是一个简单的解码器，包括基本的FPN（Feature Pyramid Network）层上采样和1x1卷积。该解码器用于将对齐后的图像特征重建为去风格化的二值图像。重建过程：解码器将输入的特征图逐步上采样，最终输出一个二值图像，其中文本区域被统一为白色，背景区域为黑色。这样，图像中的文本风格被去除，只保留了文本的形状和位置信息。
训练过程：损失函数为了优化去风格化过程，使用了二值交叉熵损失函数（Lseg），将模型的输出与目标二值图像进行比较，指导模型学习如何更好地重建去风格化的文本。数据集在训练过程中，使用了SynthText等合成数据集，这些数据集包含了大量标注好的文本区域和对应文本内容，适合用于训练去风格化模型。通过去风格化重建，文本与OCR-Text之间的对齐更加准确，有助于后续的文本检测和识别任务。该技术能够适应不同风格和形态的文本，使得模型在面对复杂场景时具有更好的鲁棒性。将文本风格统一后，后续的文本检测和识别任务可以更加专注于文本的形状和内容，而不是风格差异，从而简化了任务的复杂度。
交叉注意力机制的实现步骤：**查询（Query）**由文本特征生成，用于在图像特征中寻找相关信息。**键（Key）和值（Value）**由图像特征生成，分别用于与查询进行匹配和提供输出信息。
- 计算注意力权重：使用查询向量与键向量进行点积操作，计算查询与键之间的相似度得分。通过softmax函数对相似度得分进行归一化处理，得到最终的注意力权重。
- 加权求和得到输出：将注意力权重与值向量相乘，并对结果进行求和，得到文本与图像特征对齐后的输出。这个输出融合了文本和图像的信息，为后续的去风格化重建提供了基础。

Loss Function

ODM 生成二值图像，将监督训练概念化为像素级分割任务。因此，我们使用二元交叉熵损失函数来优化模型进行训练：
- $L_{seg}=\frac 1N\sum^N_{i=1}-[y_ilog(p_i)+(1-y_i)log(1-p_i)]$
- 其中N表示像素数量，pi表示预测结果，yi表示Ground Truth。
另一方面，ODM 的训练输出是生成去风格化二值图像，而不是与原图保持比例一致性的文本分割图。因此，单纯依靠像素级交叉熵损失对于有效引导模型学习字符去风格化提出了挑战。为了在特征级别进行优化，我们结合了 OCRVQGAN 提出的 OCR LPIPS 损失函数。具体来说，我们使用训练有素的检测器（Unet-VGG16）来输入 Ground Truth 和模型预测的二值图像。随后，计算 L1 损失以促进对丰富的潜在空间和去风格化字符字形图像的学习，其定义如下：
- $L_{ocr} = \sum_l\frac 1 {H_lW_l} ∥V GG_l(ˆy) − V GG_l(y)∥_1$
- 其中 Hl 和 Wl 分别表示第 l 层输出特征图的高和宽，VGG 表示训练有素的检测器，yˆ 表示预测值，y 表示Ground Truth。
同时借鉴CLIP提出的 batch-level 对比损失，通过最大化正样本间的相似性、最小化负样本间的相似性，加速将文本与图像映射到同一个语义空间，其定义如下：
- 其中CE表示交叉熵损失，I 表示图像特征，T 表示文本特征， $I_+$ 表示当前文本特征对应的图像特征，T+ 表示当前图像特征对应的文本特征，y(∗)表示Ground Truth。
损失函数 Ltotal 是分割损失 Lseg、OCR LPIPS 损失 Locr 和批量对比损失 Lbc 的总和，公式如下：
- $L_{total} = αL_{seg} + βL_{ocr} + γL_{bc}$
- 其中权重α、β 和 γ 分别根据经验设置为1、1和0.5。
二元交叉熵损失（Lseg）：用于像素级分割任务的优化。OCR LPIPS损失（Locr）：使用L1损失和预训练的检测器来学习丰富的潜在空间和去风格化的字符字形图像。批量对比损失（Lbc）：通过最大化正样本间的相似度和最小化负样本间的相似度，加速文本和图像映射到同一语义空间。
损失函数：包括分割损失（Lseg）、OCR LPIPS损失（Locr）和批对比损失（Lbc），分别用于优化像素级对齐、特征级对齐和文本与图像的语义对齐。

Label Generation

ODM 监督训练的挑战之一是数据标签的创建，尤其是获取细粒度的像素级标签，这既困难又昂贵。为了解决这个问题，我们提出了一种生成像素级标签的方法。
对于四点标注，我们计算四边形的尺寸，并根据字符数估计每个字符的大小和位置。然后，我们使用字体文件（例如“NotoSans-Regular”）填充这些字符。对于多点标注，我们采用 ABCNet 中的图像合成方法，并利用标签提供的贝塞尔曲线来计算文本的曲率。与四点标注类似，我们从多点标注中确定每个字符的大小和位置，并使用每个字符的左上角点和后续点计算斜率。 一旦我们获得斜率，我们就会相应地调整字符的方向。图 2 显示了一些生成的标签示例。
在获取像素级标签的过程中，原始 OCR 文本和像素级标签之间的间距可能会存在差异。因此，我们生成的标签中的个别字符可能与原始图像中 OCRText 字符的位置不完全对齐。但是，这种差异不会影响我们的任务，因为我们的方法涉及将原始图像转换为去风格化二进制图像，而不是执行逐像素文本分割。

Experiment

Datasets

在我们的实验中，我们使用了大量可公开访问的数据集，在 SynthText 数据集上执行预训练，并利用 ICDAR15、CTW1500 和 TotalText 等数据集对文本检测和文本识别任务进行微调。
SynthText 是一个用于文本检测和识别的合成数据集，包含 800K 多张合成图像。每张图像都标注了文本区域及其对应的文本内容。数据集中的合成文本是通过将真实文本整合到自然图像中生成的。合成文本的位置、方向、大小和外观会随机变化，以模拟真实场景中的文本。
ICDAR2015 包含 1500 幅图像，其中 1000 幅用于训练，其余 500 幅用于测试。ICDAR2015 包含不同类型的文本，包括水平文本和多方向文本。
CTW1500 是弯曲文本实例的数据集，由 1500 幅图像组成，包含 1500 张图像，其中 1000 张用于训练，其余 500 张用于测试。
TotalText 是一个曲线文本实例的数据集，包含 1555 张图像，其中 1255 张用于训练，其余 300 张用于测试。

Implementation Details

训练。在我们提出的方法中，我们使用 ResNet50 作为图像编码器，使用 6 层 Transformer 作为文本编码器。重建解码器由 FPN 和 1x1 卷积构成。在训练阶段，我们将图像大小配置为 512x512，将文本控制器的文本长度设置为 25，并将文本实例的最大数量限制为 32。学习率设定为 1e-4。网络训练在 8 个 A100 GPU 上进行，每张卡处理的批处理大小为 64，总批处理大小为 512。整个训练过程跨越 100 个时期。
微调。我们对各种 OCR 任务进行了评估，涵盖了文本检测方法，例如 DB++ 、FCENet 和 PSENet ，以及文本识别技术，包括 ABCNet、DeepSolo 和 SPTS 。在比较实验中，唯一改变的变量是主干权重，其他所有设置均保持一致。
评估协议。我们使用交并比 (IoU) 来确定模型是否正确检测文本区域，并按照 ICDAR2015 计算精度 §、召回率 ® 和 Hmean (H) 进行比较。

Comparison with Detection Methods

为了评估我们提出的方法在文本检测任务上的有效性，我们使用 DB++、PSENet 和 FCENet 进行了可比实验。我们的模型在 SynthText 数据集上进行了初始预训练，随后在不同的数据集上进行了微调。这些实验的结果显示在表 1 和表 2 中。使用我们预训练主干的网络与原始网络相比有所改进，其中 PSENet 的改进尤其显着。这表明我们的预训练模型权重可以有效地聚焦于场景中的文本区域，展示了我们预训练权重的巨大潜力。
- 表 1. 表中列出了不同模型在 ICDAR15、CTW1500 和 TotalText 上进行场景文本检测的性能。 “PD”和“Syn”分别指预训练数据集和 SynthText 数据集。“+ODM”指我们在 SynthText 数据集上预先训练的模型，用于微调。† 表示复现模型后获得的分数，∆ 表示改进
- 表 2. 与 PSENet 上现有的场景文本预训练技术的比较。“PD”和“Syn”分别指预训练数据集和 SynthText 数据集。“+ODM”指我们在 SynthText 数据集上预训练的模型，用于微调。† 表示复现模型后获得的分数，∆ 表示改进。

Comparison with Spotting Methods

为了评估我们提出的方法在文本识别任务上的有效性，我们与 ABCNet、DeepSolo 和 SPTS 进行了可比实验，涵盖了广泛的任务场景。我们的模型最初在 SynthText 数据集上进行预训练，然后在不同的数据集上进行微调。这些实验的结果显示在表 3 和表 4 中。实验结果表明，利用我们预先训练的权重进行微调可显著提高模型在各种数据集上的性能。
- 表中列出了不同模型在 ICDAR15 场景文本识别上的表现。“PD”和“Syn”分别指预训练数据集和 SynthText 数据集。 “+ODM”指我们在 SynthText 数据集上预先训练的模型，用于微调。† 表示复现模型后获得的分数，∆ 表示改进。 “D”和“E”分别代表检测和端到端。“S”、“W”和“G”分别表示使用强、弱和通用词典。
- 表中列出了不同模型在 CTW1500 上进行场景文本识别的性能。“PD”和“Syn”分别指预训练数据集和 SynthText 数据集。 “+ODM”指我们在 SynthText 数据集上预先训练的模型，用于微调。† 表示复现模型后获得的分数，∆ 表示改进。 “D”和“E”分别代表检测和端到端。“N”和“F”分别代表无和完整。
这表明通过我们提出的预训练方法获得的预训练权重准确定位了 OCR 文本的位置并提取了捕捉文本实例语义信息的图像特征。

Weakly Supervised Pre-training

为了评估我们提出的方法在弱标记数据中将文本与图像对齐的有效性，我们评估了它的功效。我们首先使用 PPOCRv3 在 LSVT 数据集中的 400,000 张弱注释图像上生成伪标签（即文本和图像中的位置）。然后，我们使用我们提出的标签生成方法生成相应的像素级去风格化注释。
为了确保预训练的质量，我们只选择推理置信度超过 0.9 且文本大小大于 32 像素的标签。我们使用这些生成的标签对我们的模型进行预训练，然后使用来自 LSVT 数据集的 30,000 张完全注释的图像对不同的场景文本检测器进行微调。表 5 中显示的结果表明，当我们提出的方法仅使用伪标签进行预训练时，在 DBNet++ 和 PSENet 模型上进行微调后，Hmean 得分都提高了约 1.5%。这表明我们的方法即使在弱监督场景下也能始终如一地表现，并部分解决大量未标记数据无法参与预训练的问题。
- 表 5. 表中列出了不同模型在 LSVT 场景文本检测上的表现。“PD”和“LSVT”分别指预训练数据集和 LSVT 数据集。“+ODM”指我们在 LSVT 数据集中使用 400,000 张伪标签图像进行预训练的模型，用于微调。† 表示复现模型后获得的分数，∆ 表示改进。

Comparison with Pre-training Methods

我们将我们提出的方法与现有的场景文本预训练策略（包括 STKM 和 oCLIP）进行了比较。为了研究不同预训练目标的有效性，我们在三个数据集上对 PSENet 进行了烧蚀实验：ICDAR15、CTW1500 和 TotalText。如表 2 所示，在同一组数据上进行预训练时，我们提出的方法优于现有的预训练技术。此外，在 CTW1500 数据集上进行微调时，我们提出的方法（仅在 SynthText 上进行预训练）甚至超过了在 4000 万张网络图像上进行预训练的 oCLIP 的性能。

Ablation Experiments

比例消融：我们进行了实验来评估选定比例在我们的 Drop-Text 和 Noise-Text 策略中的影响。进行了四组实验，选定的比例分别为 0%、30%、50% 和 70%。这些策略的选定比例是唯一调整的变量，而所有其他配置保持不变。我们在 SynthText 数据集上以不同的比例预训练模型，并将预训练的权重转移到 CTW1500 数据集上微调 PSENet。结果如表 6 所示。通过 Drop-Text 和 Noise-Text 策略促进文本-图像对齐，有效提升了模型的性能。
- 表 6. 所提出的 Text-Controller 模块在 CTW1500 上的比例消融研究。“PD”和“Syn”分别指预训练数据集和 SynthText 数据集。“TP”指选定的文本比例。“+ODM”指我们在 SynthText 数据集上预先训练的模型，用于微调。† 表示重现模型后获得的分数。
不同比例对性能的影响是巨大的。小比例的文本实例导致的性能改进微乎其微，可能是因为少数单词的变化不足以实现有效的文本-图像对齐。这种最小的改进可以归因于由于文本实例缺乏显著变化而在训练过程中引入的错误。
另一方面，使用大比例的文本实例对性能的影响也有限。这可以归因于这样的事实：当大量单词被删除或作为噪音添加时，模型在训练期间捕获的有效特征会减少，从而导致收敛困难和潜在的学习偏差。因此，选择适当的比例以确保模型捕获足够数量的有效特征非常重要。这有助于模型在更复杂的场景中将文本与 OCRText 对齐，并增强模型的鲁棒性。
模块消融：在我们的研究中，我们调查了几个提议模块的贡献。我们在 SynthText 数据集上使用这些模块的不同组合训练模型，随后在 TotalText 数据集上使用 PSENet 对预训练权重进行微调，如表 7 所示。实证结果表明，对于 OCR 文本去重任务，Text-Controller 模块提供的文本特征有助于模型更好地理解和定位 OCR 文本。此外，我们提出的 Drop-Text 和 Noise-Text 策略通过加强文本和 OCR 文本之间的对齐有效地增强了模型的性能。
- 表 7. 我们提出的组件在 TotalText 上的消融研究。我们使用具有不同模块的预训练模型对 PSENet 进行微调。“TE”、“DT”、“NT”和“OL”分别指文本编码器、Drop-Text、Noise-Text 和 OCR Loss。

Conclusion

本文介绍了一种新颖的预训练方法 ODM，旨在根据文本提示将图像中发现的不同风格的文本转换为统一的风格。通过利用通过 ODM 生成的预训练模型，它可以无缝集成到现有的检测和识别网络中，从而显著提高性能。为了解决 OCR 任务中的注释成本问题，我们提出了一种专为 ODM 设计的新标签生成方法。此外，我们还引入了 TextController 模块，它有助于调节模型输出并提高其对 OCR 文本的理解。
通过结合这些方法，我们能够在预训练过程中使用大量未标记数据，从而有效降低注释成本。我们进行了广泛的消融和比较实验，证明了我们模型的有效性和稳健性。结果凸显了 ODM 在 OCR 预训练中的潜力及其对场景文本检测和识别任务进步的宝贵贡献。展望未来，我们计划探索该方法在其他领域的潜力，例如文档分析、手写识别和其他复杂的场景文本场景。
GitHub - PriNing/ODM: ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting 预训练阶段：通过运行ODM模型的训练脚本（如python -u src/training/main.py），设置好训练参数（如数据路径、批次大小、学习率等），开始预训练过程。训练过程中，模型会不断学习文本与OCR-Text之间的对齐关系，优化特征提取器和文本编码器的参数，以提高对文本特征的提取能力。
- 特征提取器替换或融合：在预训练完成后，从ODM模型中提取特征提取器（如ResNet50）的权重参数。将这些权重参数加载到新的OCR模型中，替换或融合原有的特征提取器。例如，在新的OCR模型代码中，找到特征提取器的部分，使用ODM模型的权重参数进行初始化。
- 微调阶段：将集成ODM特征提取器的OCR模型在特定的数据集上进行微调。使用与预训练阶段类似的训练脚本和参数设置，开始微调过程。微调过程中，模型会进一步优化特征提取器与OCR模型其他部分的协同工作，提高整体的文本检测和识别性能。