现有的文本识别方法通常需要大规模的训练数据。由于缺乏带注释的真实图像,它们中的大多数依赖于合成训练数据。然而,合成数据和真实数据之间存在领域差距,这限制了文本识别模型的性能。最近的自监督文本识别方法 试图通过 引入对比学习 来利用未标记的真实图像,对比学习主要学习文本图像的辨别。受人类 通过阅读和写作 学习识别文本的观察的启发,本文建议,通过在本文的自监督方法中 集成 对比学习 和 掩码图像建模 来学习辨别和生成。
采用 对比学习分支 来学习文本图像的判别,模仿人类的阅读行为。同时,首先将 掩码图像建模 用于文本识别,以学习文本图像的上下文生成,这类似于书写行为。
实验结果表明,本文的方法在不规则场景文本识别数据集上优于以前的自监督文本识别方法 10.2%-20.2%。此外,本文提出的文本识别器在 11 个基准上平均超过了以前最先进的文本识别方法 5.3%,具有相似的模型大小。还证明了本文的预训练模型可以很容易地应用于其他与文本相关的任务,并具有明显的性能提升。
从图像中读取文本 [23, 30] 是一个连接视觉和语言的长期且有价值的话题,主要包括文本检测 [31, 32] 和文本识别 [44, 45]。由于大多数现有的文本识别方法都需要大量数据,而带注释的真实图像价格昂贵,因此它们通常依赖于大规模的合成训练数据。然而,合成数据和真实数据之间的领域差距限制了文本识别模型的性能。因此,探索未标记的真实图像的使用是有意义的,这可以进一步激发文本识别模型的潜力。
采用自监督学习 进行文本识别 以充分利用真实图像 是很自然的。以前的工作试图 通过 引入对比学习 来利用未标记的真实图像。SeqCLR [1] 提出了一种用于文本识别的 序列到序列 对比学习框架。 PerSec [34] 介绍了一种用于文本识别的 分层对比学习方法。它们都是基于对比学习,主要侧重于学习文本图像的辨别,如图1a所示。
本文观察到 人类通过阅读和写作来学习识别文本图像。
- 阅读 是指 从不同的外观或不同的角度观察文本,这有助于我们学习辨别力。
- 写作是一种更深入地识别文本图像的生成方式。
阅读和写作的结合有助于人类更好地识别文本。受这一观察的启发,本文提出了一种用于文本识别的判别式和生成式自监督方法(DiG)。
如图 1b 所示,本文提出的 DiG 将对比学习和掩码图像建模集成到一个统一的模型中,以充分享受判别模型和生成