【读点论文】Self-supervised Character-to-Character Distillation for Text Recognition通过连通域分割字形结构的自监督识别方法-CSDN博客

本文链接：https://blog.csdn.net/weixin_43424450/article/details/142598832

Self-supervised Character-to-Character Distillation for Text Recognition

Abstract

在处理复杂的文本图像（例如，结构不规则、分辨率低、严重遮挡和光照不均匀）时，现有的监督文本识别方法需要大量数据。尽管这些方法采用大规模合成文本图像来减少对带注释的真实图像的依赖，但领域差距仍然限制了识别性能。因此，通过自监督学习探索未标记真实图像上的鲁棒文本特征表示是一个很好的解决方案。然而，现有的自监督文本识别方法通过沿水平轴粗略地分割视觉特征来进行序列到序列的表示学习，这限制了增强的灵活性，因为基于几何的大规模增强可能会导致序列到序列的特征不一致。受此启发，我们提出了一种新颖的自监督字符到字符蒸馏方法 CCD，它支持多种增强以促进一般的文本表示学习。具体而言，我们通过设计自监督字符分割模块来描绘未标记真实图像的字符结构。随后，CCD 使用来自图像的两个增强视图之间的变换矩阵，在灵活增强的情况下，轻松丰富局部字符的多样性，同时保持其成对对齐。实验表明，CCD 取得了最先进的结果，文本识别的平均性能提升了 1.38%，文本分割的平均性能提升了 1.7%，文本超分辨率的平均性能提升了 0.24 dB（PSNR）和 0.0321（SSIM）。代码可在 https://github.com/TongkunGuan/CCD 上找到。
论文地址：[2211.00288] Self-supervised Character-to-Character Distillation for Text Recognition (arxiv.org)
基于对比学习的范式：简单来讲，一张图像，通过不同的增强方式去获得两个视角，它们分别送入网络提取高层次图像特征。通过建立两个视角下特征的一致性，可以促使网络学习到通用的特征表示。在下游任务上，通过微调等技术进一步促使特征聚合，使得特征具有语义信息，用于分类、分割、检测、识别、重建等任务。
基于掩码重建的范式 MAE系列：简单来讲，一张图像，通过随机掩码固定或随机比例的图像patch, 得到masked image, 网络通过学习unmasked patches的信息，去重建masked patches。文本识别 CVPR2023 ICCV2023 - 知乎 (zhihu.com)
具体来说，与工作【【读点论文】Self-supervised Implicit Glyph Attention for Text Recognition 一种自监督隐式字形注意力方法对齐字形结构，无需字符级标注-CSDN博客】提出的字形伪标签构建方案不同的是，考虑到很多真实的文本图像没有标签，因此我们无法使用隐式注意力对齐模块去获得水平位置信息，进而无法切分得到单个字符结构。退而求其次，我们采用寻找连通域的方式，去分割字符。单个连通域可以被看成字符结构，半字符结构，字符串结构以及背景区域。

Introduction

从图像中识别文本是计算机视觉的一项基本任务，可应用于各种场景，例如识别乳胶配方 [Image to latex with graph neural network for mathematical formula recognition]、工件序列号 [ Industrial scene text detection with refined feature-attentive network]、文本徽标等，并对多模态分析和文本理解做出了重大贡献。然而，现有的文本识别方法需要大量数据，即它们需要至少包含文本转录的足够数据，才能通过隐式注意学习产生准确的字符预测 。此外，一些监督注意方法需要额外的字符级边界框。这些对文本图像的注释既昂贵又费力。尽管他们采用文本合成技术 [Synthetic data for text localisation in natural images, Synthetic data and artificial neural networks for natural scene text recognition] 来替代劳动密集型的文本注释任务，但真实图像和合成图像之间的领域差距仍然限制了文本识别的性能 。因此，探索未标记的真实文本图像的潜力非常重要，因为它们很容易获得。
最近，自监督学习方法引起了广泛关注，该方法试图利用未标记的真实文本图像的内在质量来学习适当的视觉表示，然后在使用较少注释数据的文本相关的下游任务上进行微调。具体而言，SeqCLR 采用 SimCLR 框架来确保两个增强视图之间的序列到序列一致性，其中序列由几个不重叠的特征块组成，这些特征块从文本图像的视觉特征中水平分割出来。DiG 使用序列级对比学习任务和蒙版图像建模任务来学习特征表示。这些方法通过图 1 (a) 所示的序列级 pre-text 任务来制定学习。我们认为，将文本图像的视觉特征沿横轴粗略地拆分为特征序列有两个缺点：
- 1）数据增强策略不灵活，因为大的几何变换可能会导致从不同视图生成的特征序列中相应项之间的不一致。然而，许多先前的工作要求自监督学习使用多种数据增强；
- 2）忽略字符结构，这会使网络混淆并导致字符间混合，从而进一步降低对以字符为中心的文本图像中语义线索信息的感知。因此，需要一种适合具有多种字长文本图像的自监督学习范式。
- 图 1. 两种不同自监督范式的概念图。 (a) 是一种序列级方法，它将从序列中水平分割的特征块作为表示学习的基本项目。 (b) 是我们的字符级方法，它结合自监督分割头来生成单个字符结构（Sreg 和 Sirr），并利用得到的字符级特征作为表示学习的基本项目。
为了解决这个问题，我们提出了一种新的字符级自监督学习范式，称为字符到字符蒸馏（CCD），如图 2 所示，它通过将文本图像组织成实体（即每个字符和背景区域）来实现跨各种增强的特征表示一致性。具体来说，首先从每个输入图像生成两个视图：具有颜色抖动的常规视图和具有附加几何变换的不规则视图。每个视图都被输入到学生-老师分支的编码器中，以提取代表整个视图的特征。然后，通过联合自监督文本分割和基于密度的空间聚类任务来描绘常规视图中的字符区域，并使用两个视图之间已知的变换矩阵生成不规则视图中的字符区域。通过这种方式，CCD 自然地确保了跨视图和分支的对应字符的一致性。因此，通过在灵活的增强下享受局部字符的成对多样性，CCD 有效地增强了学习特征的鲁棒性和泛化性，使其更适合与文本相关的下游任务。总结一下，主要贡献如下：
- 我们提出了一种新颖的自监督方法，专门针对以字符为中心的文本图像，具有多种字长，称为 CCD。与以前的序列到序列 pretext 任务不同，CCD 描绘了字符结构以建立字符到字符的特征表示一致性，在提取一般文本特征表示方面具有显著的增强灵活性。
- CCD 在自监督表征学习中表现出了突出的优势，在文本识别、文本分割、文本图像超分辨率任务中，均显著优于最先进的 DiG 1.38%、1.7%，在参数和延迟相同的情况下，PSNR 提高了 0.24 dB，SSIM 提高了 0.0321
当处理复杂的文本图像(如不规则结构、低分辨率、严重遮挡和光照不均匀)时，现有的监督文本识别方法需要大量数据。尽管这些方法采用大规模合成文本图像来减少对带注释的真实图像的依赖，但域间隙(domain gap)仍然限制了识别性能。因此，通过自监督学习来探索未标记真实图像上的鲁棒文本特征表示是一个很好的解决方案。

Related Work

Text Recognition

给定一个文本图像，并由其文本注释进行监督，文本识别方法旨在预测这些字符。具体来说，这些方法可以粗略地概括为语言无关方法和语言感知方法。对于语言无关方法，它们将文本识别视为字符分类任务，并专注于如何提取字符的鲁棒视觉特征。例如，一些作品通过计算特征块的相似度来开发隐式注意机制，以提取相对于当前解码字符的重要视觉特征项。一些作品使用额外的字符级边界框注释作为字符的空间位置来监督解码阶段的相应注意力，从而缓解了对齐漂移问题并提高了注意力的正确性。对于语言感知方法，它们对具有语言上下文的文本执行语义推理，以探索字符、子词和词之间的语义关系。例如，Fang 等人 [Read like humans] 提出了一种语言模型，通过预测具有语言上下文的文本中的屏蔽字符。Li 等人 [From two to one] 基于字符注意机制屏蔽某些字符的视觉特征，以预测相应的字符类别。

Self-supervised Learning for Text Recognition

最近，自监督学习目标因其强大的特征表示可用于迁移下游任务而获得了相当大的关注。这些方法利用未标记的真实图像的内在质量来学习一般的特征表示，通过确保各种增强视图的特征一致性。例如，计算机视觉中两个流行的自监督pretext 任务旨在建立表示学习：判别任务和生成任务 。
受这些方法的启发，一些自监督文本识别方法专为具有不定长字符的文本图像而设计，这与具有原子输入元素的精心策划的图像不同。具体而言，SeqCLR 是第一个将自监督方法应用于文本识别的方法，它提出了一种针对文本图像的序列到序列对比学习框架。它将视觉特征水平分割成具有固定长度特征块的序列，并且来自两个增强视图的特征序列的每一项都对齐。继 SeqCLR 进行序列级代表性学习之后，DiG 将其中一个增强视图更新为掩蔽视图，并添加掩蔽图像建模任务。PerSec 对每个特征元素执行分层对比学习以进行文本识别。我们的工作与之前的工作不同，因为我们描绘了字符结构并提出了一个字符到字符的蒸馏任务，以在代表性空间中学习更通用的文本特征。
基于对比学习的范式 MOCO系列 SIMCLR SwAV DINO等工作：
- 简单来讲，一张图像，通过不同的增强方式去获得两个视角，它们分别送入网络提取高层次图像特征。通过建立两个视角下特征的一致性，可以促使网络学习到通用的特征表示。在下游任务上，通过微调等技术进一步促使特征聚合，使得特征具有语义信息，用于分类、分割、检测、识别、重建等任务。
基于掩码重建的范式 MAE系列：
- 简单来讲，一张图像，通过随机掩码固定或随机比例的图像patch, 得到masked image, 网络通过学习unmasked patches的信息，去重建masked patches。
当处理复杂的文本图像(如不规则结构、低分辨率、严重遮挡和光照不均匀)时，现有的监督文本识别方法需要大量数据。尽管这些方法采用大规模合成文本图像来减少对带注释的真实图像的依赖，但域间隙(domain gap)仍然限制了识别性能。因此，通过自监督学习来探索未标记真实图像上的鲁棒文本特征表示是一个很好的解决方案。然而，现有的自监督文本识别方法通过沿水平轴粗糙地拆分视觉特征来进行序列到序列的表示学习，这限制了增强的灵活性，因为基于几何的大规模增强可能导致序列到序列的特征不一致。因此与sequence-to-sequence相比，我们基于字符伪标签提取技术，提出了一种新颖的自监督字符到字符蒸馏方法，character-to-character distillation(CCD)，它可以实现多种增强，以促进通用的文本表示学习。在此基础上，CCD利用图像中两个增强视图之间的变换矩阵，在灵活增强下，在保持局部特征成对对齐的同时，轻松丰富了局部特征的多样性。

Methodology

Architecture

数据增强：输入图像 X 经过基于颜色的增强（例如，颜色抖动、颜色丢失和灰度转换）以创建规则视图 Xreg，并经过基于颜色和几何的增强（例如，仿射变换和透视扭曲）的组合以生成不规则视图 Xirr。
编码器 F(·)：ViT 被用作我们方法 CCD 的编码器，因为它在提取视觉特征方面具有显著优势。具体来说，两个增强视图（Xreg 和 Xirr）被分割成大小为 4×4 的非重叠块，然后输入到多层 Transformer 块中以提取文本特征。
自监督字符分割头 Φ(·)：我们采用类似 Unet 的网络结构来实现像素级文本分割，为每个像素分配一个前景或背景标签。然后，我们通过基于密度的空间聚类任务从生成的文本分割图中描绘出字符结构。
Patch Head H(·)以字符结构区域和文本特征作为输入，通过均值池化操作生成字符级特征表示。
投影头P(·)由三层MLP和一个权重归一化的全连接层组成，产生最终的字符特征。
学生和教师分支包含上述所有单元，但自监督字符分割头 Φ(·) 除外，它是专门在学生分支中设计的，以生成字符分割结果（常规视图中的 Sreg 和不规则视图中的 Sirr）。为简单起见，取消教师分支的分割头，利用分割结果（Sreg 和 Sirr）作为相应的字符区域（常规视图中的 Treg 和不规则视图中的 Tirr）。随后，在学生分支中生成字符特征（Rs 和 Is）以匹配来自教师分支的字符特征（Rt 和 It）分布。整个流程如图 2 所示，详细的网络在第 3.2 节中描述。此外，我们还提供了字符到字符自监督学习方法的伪代码实现，以进一步说明我们的流程，如算法 1 所示。

Character-level Representation Learning

在本节中，我们将说明如何获取字符结构并确保表示学习的字符到字符的一致性，这与现有的序列到序列的自监督方法不同。
1）自监督字符分割。给定一个未标记的文本图像，我们的目标是执行实例级字符分割，识别所有字符区域并为每个字符区域生成一个掩码。具体来说，为了使任务更加可行和合理，我们将其分为两个子任务：自监督的文本分割任务和基于聚类的字符分割任务。
对于自监督文本分割任务，我们首先计算输入图像的伪标签 Mpl，然后使用它来训练我们的文本分割网络，为每个像素分配一个前景或背景类别。为此，我们选择了一种简单有效的 K 均值算法（设置 K = 2），根据像素的灰度值将每幅图像的像素聚类为文本区域（中心）和背景区域（周围）。随后，分割网络使用编码器 ViT 的第 2、4 和 6 层的输出作为 P0、P1、P2，实现细节如下：
- $\left\{\begin{matrix} O_i=\varphi (P_i) ,i=0,1,2 \\ O=\tau ([O_0,O_1,O_2]) \end{matrix}\right.$
- 其中 φ(·) 表示具有 BatchNorm 和 ReLU 激活函数的两个卷积层。T (·) 表示两个 2× 上采样操作，用于恢复输入图像的分辨率。[·] 表示沿通道轴的连接操作。最后，通过在 O 上应用卷积层进行二分类来生成文本分割图 Mseg 的网络预测。Mpl 和 Mseg 之间的交叉熵损失 Lseg 用于优化我们的自监督文本分割网络。
现在，我们假设获得了文本分割图 Mseg，基于聚类的字符分割任务旨在为每个字符获取一个掩码。可以观察到，在大多数自然场景文本图像中，单个字符保留了内部像素级连通性，而字符之间的空间表现出不连续性。利用这一观察结果，我们采用基于密度的空间聚类方法将 Mseg 分割成几个聚类。具体而言，通过聚合所有通过密度连接的附近点并将它们分组在一起来形成一个聚类。然后，每个聚类内的点可以被视为一个字符结构。关于超参数的讨论将推迟到第 5 节中的消融和分析中。
如图 3 所示，为了简化实验，自监督字符分割头专门将学生分支中的常规视图作为输入，以生成最终的字符分割结果 Sreg = [sr1, sr2, …, srl]。l 指的是聚类中心的数量，理想情况下也指的是图像的字长。
- 图 3.自监督字符分割流程。
2）对应区域对齐。有效的数据增强策略对于实现表示学习至关重要。然而，在序列级自监督文本识别方法中，强几何变换会导致不同视图之间的特征序列对应项不一致。
受此启发，我们提出了一种灵活增强下的字符区域对齐策略。具体来说，对于学生分支中的常规视图，我们获得了如上所述的字符分割结果 Sreg。为了执行字符区域对齐，其他字符分割结果（Sirr、Treg 和 Tirr）生成如下。
为了从学生分支中的不规则视图计算 Sirr，将增强的变换矩阵定义为 π，问题可以表述为：给定 Xreg = πreg(X)、Xirr = πirr(X) 和 Sreg，计算 Sirr = πreg→irr(Sreg)。因此，Sirr = πirr(Sreg) 由于 πreg→irr = πirr(π −1 reg) = πirr，其中 πreg 是单位矩阵，因为常规视图经过基于颜色的增强管道
为了分别从教师分支中的常规视图获得 Treg 和从不规则视图获得 Tirr，直接使用学生分支中的字符分割结果，即 Treg = Sreg，Tirr = Sirr，因为学生和教师分支中使用了相同的增强。
这样，我们的方法自然地确保了不同视图和分支之间对应字符区域的对齐，从而丰富了它们的成对多样性。因此，通过解决跨不同增强学习特征一致性的挑战，我们的方法有效地增强了学习特征的鲁棒性和泛化性，使其更适合下游任务。
3）字符到字符的蒸馏。有了上述基础，我们可以继续实现跨不同视图（Xreg和Xirr）和分支（学生和老师）的字符到字符的蒸馏。
具体来说，我们首先计算字符特征表示（Rs、Is、Rt、It）。以学生分支中的常规视图Xreg为例，我们得到编码特征hreg = F(Xreg)和字符分割结果Sreg = Φ(hreg) = [sr1, …, srl]，块头H(·)进一步通过均值池化操作得到字符级特征Vreg = [vr1, …, vrl]，如下所示：
- $v_{ri}=\frac{1}{\sum_{x,y}s_{ri}^{(x,y)}}\sum_{x,y}s_{ri}^{(x,y)}h_{reg}^{(x,y)}$
- 其中 i 表示通道索引，(x, y) 表示图中的坐标点。然后将 Vreg 输入到我们的投影头 P(·) 中以获得最终的字符特征 Rs = P(Vreg)，其中 $Rs ∈ \R ^{l×n}$ 。具体来说，P(·) 包括四个线性层，前两个线性层应用了 GELU 层，隐藏维度为 2048，第三个线性层应用了规范化操作，输出维度为 256。最后一个线性层将特征投影到具有 n 维（n = 65536）的高维空间中。
按照同样的原理，我们可以分别从学生分支中的不规则视图得到其余的字符特征，即 $I_s ∈ \R ^{l×n}$ ，从教师分支中的规则和不规则视图得到Rt， $I_t ∈ \R ^{l×n}$ 。
受 DINO 的启发，学生从教师中提炼出来，通过优化学生分支的字符级特征 (Rs, Is) 来匹配教师分支的字符级特征 (Rt, It)。假设 $a, b ∈ \R ^{l×n}$ ，我们定义：
蒸馏损失公式为：Ldis = ξ(Rt, Is) + ξ(It, Rs)，其中 τ 是温度参数，分别表示学生和教师分支中的 τs 和 τt。最后，通过对学生权重 θs 应用指数移动平均 (EMA) 来更新教师权重 θt，总结为 θt = λθt + (1 − λ)θs。

Down-stream Tasks

继承自 CCD 编码器，为了公平比较，针对不同的下游任务采用相同的解码器结构和自监督方法。详细的网络配置如表 2 所示
- 表 2. 编码器和解码器配置。ViT 系列指的是 ViT 的三种变体（Tiny、Small 和 Base）。
文本识别：添加了一个基于 Transformer 的解码器，该解码器由 6 个 Transformer 块和一个具有 96 个通道的线性预测层组成，用于预测字符。
文本分割：引入了一个具有 3 个 Transformer 块和一个线性预测层的解码器。最终维度为 2（前景和背景类别）。
文本图像超分辨率：采用与文本分割网络相同的解码器结构，只是将最后的预测维度替换为 3，以使用 RGB 通道恢复输入图像。

Experiment

Dataset

未标记真实数据 (URD) 包含 15.77M 张真实世界文本图像，这些图像是通过应用 Microsoft Azure OCR 系统提供的文本边界框结果从大规模概念字幕数据集【https://github.com/google-research-datasets/conceptual-captions】中裁剪出来的。合成文本数据 (STD) 由两个大规模 SynthText (8M) 和 Synth90k (9M) 组成。
带注释的真实数据 (ARD) 从自然场景中收集，包含 2.78M 张文本图像（TextOCR 中为 0.71M 张，Open Image Dataset v5 【https://storage.openvinotoolkit.org/repositories/openvino_training_extensions/datasets/open_images_v5_text】中为 2.07M 张）。
场景文本识别基准：包括三个常规文本数据集（即 IIIT5K-Words (IIIT) 、ICDAR2013 (IC13) 和街景文本 (SVT) ）和三个不规则文本数据集（即 ICDAR2015 (IC15) 、SVT Perspective (SVTP) 和 CUTE80 (CT) ）。IIIT、SVT、IC13、IC15、SVTP 和 CT 基准分别包含 3000、647、1015、1811、645 和 288 张图像。
文本分割基准：TextSeg 提供了 4024 张带精细标注的文本图像。我们裁剪这些图像和分割图，根据其词级边界框标注构建文本实例分割数据集（训练集：10226，测试集：3445）。
文本图像超分辨率基准：TextZoom 由高分辨率和低分辨率文本图像组成。具体来说，17367 个图像对用于训练，而根据难度分别使用 1619、1411 和 1343 个图像对进行评估。

Implementation Details

自监督预训练为了进行公平比较，在无标签的 URD 和 STD 上进行预训练实验，分辨率为 32×128。具体而言，我们采用 ViT 系列（即 ViT-Tiny、ViT-Small 和 ViT-Base）作为 CCD 的基线结构。我们使用 AdamW 优化器、基本学习率为 5e-4 的余弦学习率调度器、从 0.04 到 0.4 的余弦权重延迟调度器、批大小为 288 以及总共 3 个时期的预热 0.3 个时期来训练我们的 CCD。温度 τs 和 τt 分别设置为 0.1 和 0.04。系数 λ 遵循余弦调度器，从 0.996 到 1。
文本识别微调：我们的文本识别网络使用 STD 或 ARD 在 32×128 分辨率下进行微调，总训练周期为 10 或 35。批处理大小为 384，预热时间为 1 周期。使用相同的优化器和学习调度程序。
文本分割微调：使用 TextSeg 数据集以 32 × 128 分辨率对文本分割任务进行微调。批处理大小为 384，微调周期总数为 800，预热时间为 50 周期。使用相同的优化器和学习调度程序。
文本图像超分辨率微调：批大小为 384，微调周期总数为 300，预热时间为 100 周期。采用通用峰值信噪比 (PSNR) 和相似性指数测量 (SSIM) 来评估超分辨率图像的质量。所有实验均在 PyTorch 中配备 3 个 NVIDIA 3090 GPU 的服务器上实现。

Experiment Results

自监督文本识别。在表 3 中，我们通过将提出的 CCD-ViT 系列（即 Tiny、Small、Base）与以前的自监督文本识别方法进行比较来评估特征表示对文本识别的稳健性。我们的方法在常规和不规则基准上都实现了新的最佳性能。
- 表 3. 与其他自监督文本识别器的文本识别结果比较。* 表示使用额外的 100M 张图像进行预训练。
具体来说，我们的 CCD-ViT-Tiny 在 IIIT 和 IC13 基准上分别比序列到序列方法 SeqCLR 高出 13.6% 和 8.4%。与利用 1 亿张隐私未标记真实图像进行预训练的“PerSec-ViT*”方法相比，CCD-ViT 系列在 URD 基准上进行了预训练，使用了 15.77M 张未标记图像，平均准确率仍分别达到 8.80%、9.82% 和 10.19%。
我们进一步使用相同的预训练数据和网络参数与之前最先进的自监督方法 DiG 进行了比较。具体而言，在使用 STD 进行微调时，CCD-ViT 系列的文本识别性能比 DiG-ViT 系列更好，平均准确率分别提高了 0.74%、0.37% 和 0.47%。当使用 ARD 进行微调时，与 DiG-ViT 系列相比，CCD-ViT 系列在平均准确率上持续显著地实现了 0.81%、0.88% 和 1.38% 的性能提升。这些结果表明，我们提出的字符级表示学习范式优于现有的序列到序列自学习范式，尤其是在真实数据集上。
场景文本识别。在表 4 中，我们对 CCD 和之前最先进的 (SOTA) 监督文本识别方法进行了比较。具体来说，CCD-ViTTiny 在最小参数为 20M 的情况下实现了具有竞争力的识别结果 (94.96% vs. 95.58%)。CCD-ViT-Small 获得了更高的性能，在平均准确率上比之前的 SOTA 高出 0.27%，同时在准确率和一般评估指标 (参数数量和延迟) 之间表现出成本质量权衡。CCD-ViT-Base 进一步刷新了最佳文本识别结果，在较小的模型大小 (52M vs. 113M) 下实现了 0.44% 和 0.64% 的平均增益。在对带注释的真实数据进行微调时，CCD-ViT-Base 的准确率显著提高，并取得了新的 SOTA 结果，与之前方法在 IIIT、SVT、IC13、IC15、SVTP 和 CT 基准上的最佳结果相比，性能提升了 1.0%、2.7%、1.5%、4.4%、4.6% 和 5.2%。这些结果凸显了我们提出的自监督字符级学习作为一种强大而灵活的文本识别方法的潜力。
- 表 4. 场景文本识别方法比较结果。“V”和“L”分别表示语言无关方法和语言感知方法。最佳结果以粗体显示。“Avg1”表示 IIIT、SVT、IC13、SVTP 和 CT 按大小加权平均结果。“Avg2”表示 IIIT、SVT、IC15、SVTP 和 CT 按大小加权平均结果。
文本图像超分辨率。在表5中，CCD也应用于文本图像超分辨率任务。与没有预训练阶段的Scratch-ViT-Small相比，我们的CCD-ViT-Small在SSIM和PSNR指标上获得了更好的超分辨率结果。与自监督表示学习方法DiG相比，我们的方法在使用相同的参数和数据进行预训练和微调的情况下，在SSIM（0.7843 vs. 0.7522）和PSNR（21.84 vs. 21.60）指标上持续领先性能改进。值得注意的是，尽管仅使用三个连接到ViT-Small结构的Transformer单元而无需额外设计，我们的方法也实现了比以前最先进的超分辨率方法更高的性能。这些实验表明我们的CCD-ViT-Small在提高图像质量方面的突出优势。
- 表 5. TextZOOM 基准上的超分辨率评估结果。
文本分割。在表 6 的第二行中，我们的方法在下游文本分割任务上取得了最佳结果，并且大大超越了其他方法。具体来说，CCD-ViT-Small 在交并比 (IoU) 方面比 Scratch-ViT-Small 领先 6.7%。与第一个用于评估文本图像文本分割性能的自监督学习方法 DiG 相比，我们的方法显示出其突出的优势，性能提高了 1.7% IoU。这些实验结果表明，我们的自监督方法可以学习更通用的文本特征表示。

Ablations and analysis

文本伪标签的选择。K 均值算法提供的聚类结果可能对应于文本区域或背景区域。因此，如算法 2 所示，我们利用文本区域通常位于大多数场景文本实例图像的中心，而图像的四边主要是背景区域的观察结果，对聚类结果进行了微小调整以选择合适的文本区域。与随机选择的聚类结果（Θ 或 1-Θ）相比，这种调整结果 Mpl 可使 IoU 性能提高 29.9%（70.0% vs. 40.1%），如表 7 所示。
自监督文本分割的有效性。在表 7 的第一行中，我们的自监督文本分割网络通过利用 K 均值聚类的文本区域作为伪标签，实现了 3.6% 的 IoU 改进（73.6% vs. 70.0%）。此外，当使用 K 均值进行字符到字符表示学习时，表 10 的 B 行中的平均准确率可以理解地下降了 0.24%。这可以归因于两个原因：1）神经网络能够从大量训练数据中学习通用性，从而减轻了 K 均值引入的伪标签中的噪音。2）我们需要的字形的底层形态表示对于细微的结构变化（例如变粗或变细）相对不变，这减少了对昂贵的像素级高精度分割的依赖。
特征表示评估。参考 DiG，我们冻结编码器并使用 ARD 训练解码器。如表 8 所示，我们的结果比 DiG 低 1.2%（71.1% vs 69.9%）。然而，这个结果与最终的 STR 结果并不密切相关。如 DiG 的表 2 和表 3 所示，虽然判别任务“Dis-∗”的表现比生成任务“Gen-∗”好 7.7%，但在最终的 STR 结果中，它只表现出与“Gen-∗”相当的性能。此外，DiG 取得优异成绩的原因归因于他们同时使用了“Gen-∗”和“Dis-∗”，从而带来了 4.1% 的收益。因此，当我们与同类型的 pretext “Dis-∗”进行公平比较时，CCD 获得了 2.9% 的收益（69.9% vs 67.0%）。即使与 DiG 相比，我们的方法在具有挑战性的遮挡数据集 HOST 和 WOST 上也分别提高了 5.9%（47.6% vs 41.7%）和 2.5%（66.5% vs 64.0%）。
- 表8.场景文本识别基准上CCD的特征表示评估。
使用不同的数据比率进行微调。为了证明我们提出的 CCD 的有效性，我们进一步使用 1%、10% 和 100% 的 ARD 对我们的方法进行了微调。如表 9 所示，CCD 的表现分别比 DiG 好 0.8%、4.7% 和 4.2%。
- 表9. 使用不同数据比例训练时的比较结果。
蒸馏策略的有效性。蒸馏策略是自监督表示学习的基本组成部分。为了证明蒸馏策略的有效性，我们将没有蒸馏的 CCD 视为基线模型。具体来说，我们添加了如表 10 行 A 所示的结果。与基线相比，总体改进了 4.12%。
增强策略的有效性。在表 10 中，我们比较了两种用于在规则和不规则视图之间建立字符到字符表示一致性的增强策略。1）“R2R”：规则和不规则视图都采用基于颜色的增强；2）“CCD”：默认设置，因为规则视图采用基于颜色的增强，而不规则视图采用基于颜色和几何的增强的组合。与“R2R”方法相比，后者实现了 0.49% 的提升，这表明大规模几何增强仍然适用于具有多种字长的文本图像，并鼓励 CCD 达到数据高效的自监督学习机制。
更多比较结果。1）我们首先与表 4 中在使用 STD 进行训练时支持语言感知的 PARSeq（增益为 0.5%）进行了比较。此外，我们还使用 PARSeq 提供的真实数据进行了比较实验，结果获得了 0.35% 的增益（分别为 +.0、+.4、+.3、+.2、+.5、+.6、+.7、+1.0）。2）与使用裁剪块相比，CCD 在六个标准基准上分别实现了 0.7%、1.1%、0.0%、0.7%、4.3% 和 2.0% 的增益。
进一步讨论模型对数据的渴求。一般来说，现有方法在 ARD 上训练时比在 STD 上训练时取得了显著的改进。然而，ARD 的数量（只有 2.78M）与大量且随时可用的未标记数据相比相形见绌。因此，CCD 提供了一种有效的解决方案，它利用未标记数据（15.77M）的内在特性来提取稳健的特征表示，这些特征表示可以很好地推广到多个与文本相关的下游任务。
基于密度的空间聚类的进一步讨论。基于密度的空间聚类方法在将互连字符分离成孤立的簇时可能会遇到困难，并且由于连通区域的密度不同，容易将单个字符聚类到多个簇中，如图 4 所示。
- 图 4.代表性聚类可视化结果。
这种失败通常出现在笔画紧密相连的图像中，也可能由于我们的自监督文本分割网络生成的文本掩码预测不准确而出现。为了提供详细的统计说明，我们在表 11 中统计了在 TextSeg 数据集上评估的不同类型的簇的数量。该结果是经过 7 个小时的细致手工计数获得的。显然，这些失败很少见，因为大多数簇仍然属于完整的字符。
- 表 11.不同类型集群的量化结果。
- CCD 在灵活的增强下享受大约77%的成对字符对齐，以学习字符实例特征表示；即使在由于上述问题而难以聚类字符的情况下，字符串或半字符(与序列项相比都属于前景)的表示一致性仍然可以有效地促进文本前景特征的学习；在最坏的情况下，我们的方法至少可以退化为与序列级自监督方法相同的表示一致性学习。
进一步讨论，自监督学习的目标是获得一般的文本特征表示，例如图 5 中的文本前景特征 (b) 甚至字符实例特征 ©，而后者比前者更进一步，朝着监督学习机制提取的语义特征 (d) 迈进。如上所述，CCD 可以获得更完整的字符，在灵活的增强下，可以实现大约 77% 的成对字符对齐，从而学习字符实例特征表示 ©。即使在由于上述问题而难以对字符进行聚类的情况下，字符串或半字符（与序列项相比，两者都属于前景）中的表示一致性仍然可以有效地促进文本前景特征 (b) 的学习。总的来说，在最坏的情况下，我们的方法至少可以退化为与序列级自监督方法相同的表示一致性学习，这证明了我们的 CCD 的可行性和有效性。补充材料中展示了有关 Mpl、Mseg 和 Sreg 的更多可视化示例。
- 图 5. 三种不同类型的文本特征表示。
超参数。基于密度的空间聚类方法对参数 eps 和 min samples 敏感。eps 控制聚类的粒度，而 min samples 设置形成聚类所需的最小点数阈值。为了实现最佳聚类性能，我们对一系列参数值进行网格搜索，并根据 IoU 指标选择最佳组合，如图 6 所示。具体来说，我们首先将这种聚类方法应用于 Textseg 训练集中的文本掩码以获得字符聚类结果，然后计算这些结果与带注释的字符结构之间的 IoU。

Conclusion

本文提出了一种新的字符级自监督文本识别方法，称为 CCD，该方法通过保持字符区域的成对对齐来确保在灵活增强的情况下字符到字符的表示一致性。与现有的序列到序列自监督学习模型不同，CCD 将划定的字符结构作为表示学习的基本项目，并提出了一种有效的增强策略来丰富局部字符区域的多样性。最终，CCD 在提取的特征表示的鲁棒性和通用性方面表现出显着的改进，并在三个与文本相关的任务上刷新了最先进的性能。