【读点论文】An Empirical Study of Scaling Law for OCR，又提出一个数据集，真实样本：合成样本=1：3。在TrOCR和PARSeq上大力出奇迹

最新推荐文章于 2024-12-20 17:05:14 发布

羞儿

最新推荐文章于 2024-12-20 17:05:14 发布

阅读量906

点赞数 19

文章标签： ocr scale law 计算机视觉

本文链接：https://blog.csdn.net/weixin_43424450/article/details/140663608

版权

An Empirical Study of Scaling Law for OCR

Abstract

在自然语言处理 (NLP) 领域，模型大小、数据量、计算和模型性能的规律已经得到广泛研究。然而，光学字符识别 (OCR) 中的缩放规律尚未得到研究。为了解决这个问题，我们进行了全面的研究，包括检查文本识别领域的性能与模型规模、数据量和计算之间的相关性。总而言之，当其他影响因素保持不变时，研究表明性能与模型大小以及训练数据量之间存在平滑的幂律。此外，我们构建了一个名为 REBU-Syn 的大型数据集，其中包含 600 万个真实样本和 1800 万个合成样本。基于我们的缩放规律和新数据集，我们成功训练了一个场景文本识别模型，在 6 个常见测试基准上取得了新的最佳水平，top-1 平均准确率为 97.42%。模型和数据集可在 GitHub - large-ocr-model/large-ocr-model.github.io 上公开获取。
论文地址：[2401.00028] An Empirical Study of Scaling Law for OCR (arxiv.org)

Introduction

光学字符识别 (OCR) 是一种旨在检测和解释图像（例如扫描文档和照片）中的文本内容的技术。典型的 OCR 系统分为两个主要阶段：文本检测和文本识别。在此背景下，我们的重点是文本识别阶段，该阶段涉及从预定义的边界框中识别和提取文本。在文本识别任务中，它细分为场景文本识别和扫描文档识别。场景文本识别比传统扫描文档更具挑战性，因为它需要在实际应用中解决更复杂的问题，例如光照变化、遮挡、扭曲、角度变化等因素。这种影响使得识别任务更加困难，而且STR作为研究热点，技术改进和创新空间较大，因此，为了探究缩放规律的适用性，本文将重点研究场景文本识别任务。
随着深度学习中大规模模型的引入，越来越多的学者开始关注这些模型的潜力和增长趋势，希望它们能为未来模型的开发和设计做出贡献。在 NLP 领域，已经进行了大量实验来研究缩放模型规律。结果表明，输入神经网络的数据量越大，其性能越好。因此，在海量数据上训练的大型语言模型主导了 NLP 领域。然而，在 OCR 领域，研究主要集中在使用固定数据大小和模型大小来增强模型性能。专门针对大型 OCR 模型中的缩放定律的研究非常稀少，这使得人们对大型模型和大量数据对 OCR 的潜在影响产生了不确定性。基于 Transformer 的模型在各种文本识别任务和挑战中都取得了最佳表现。
在本文中，我们探索了使用基于 Transformer 的模型进行文本识别的缩放规律。我们的重点是揭示模型大小、数据量和计算与模型性能之间的关系。我们的实验框架涵盖了广泛的模型，参数数量从 5000 万到 10 亿不等，数据集从 100 万到 10 亿训练样本不等。此外，我们将探索范围扩大到 100 到 1000 小时的计算持续时间。这种全面的分析使我们能够对文本识别中的缩放规律得出深刻的结论。此外，我们引入了一个名为 REBU-Syn 的新数据集，它结合了现实世界和合成数据。该数据集是从现有的公共数据集中精心编制而成的，为该领域的进一步研究提供了宝贵的资源。
在我们的研究中，我们开发了一种先进的大规模训练方法。该方法涉及对各种策略的全面检查，例如优化训练超参数、分析数据分布和利用预训练技术。我们的目标是创建一个具有卓越精度和准确度的模型。这些努力的顶峰是使用 REBU-Syn 训练 CLIP4STR-L。这种方法在测试基准上实现了突破性的 97.42% 的先进性能（见下图）。以下是 OCR 观测的附加缩放定律的汇编：
- 缩放定律在OCR领域成立，模型大小、数据量、计算量和性能之间存在平滑的幂律。
- 大规模模型比小规模模型能够更好地利用样本，这意味着在数据量固定的情况下，大模型的错误率更低。
- 不同来源的训练数据的比例对于模型训练至关重要。
- 在OCR相关数据上进行预训练的模型在OCR任务中比在ImageNet等一般图像上进行预训练的模型更有效。

Related Work

模型规模，最近的研究广泛探索了 Transformer 语言模型的缩放规律，特别是在 NLP 领域。这些研究已经建立了一套通用的建模规模原则。然而，专门针对 OCR 的研究仍然很少。基于 Transformer 的方法以对增加的模型深度和宽度具有更高的容忍度而闻名，已应用于各个领域。本研究利用这些方法，特别关注它们在 OCR 中的应用，为有效调整模型大小提供指导。
数据规模，在图像识别领域，数据规模起着至关重要的作用。各种模型的性能受到所用数据集大小的显著影响。虽然不同类型的模型需要不同的数据量，但一些先前的方法 [What is wrong with scene text recognition model comparisons? dataset and model analysis] 探索了 OCR 识别任务对不同数据规模的影响，但它们的主要重点是基于 CNN 或基于注意力的方法，并且它们仅专注于减少数据规模。此外，公共数据集的可用性促进了该领域的广泛研究和实验。本文旨在在此基础上，通过全面研究数据规模的影响（包括下限和上限）以及 OCR 任务中的数据分布。此外，这项研究为在最佳模型训练过程中真实数据和合成数据的对齐提供了新的见解，填补了当前研究的空白。
缩放定律 ChatGPT 和 GPT-4 等大型语言模型 (LLM) 的快速发展引发了对深度学习中通用缩放定律的研究。这些研究探索了模型大小、数据量、计算和性能之间的关系，为 NLP 中的大型模型提供了训练原则。 [Scaling laws for autoregressive generative modeling] 描述了自回归生成模型的定律。计算机视觉领域也出现了类似的缩放理论 [Scaling vision transformers]，正如使用 2B 参数训练 ViT-G 所证明的那样。此外，最近对 CLIP 缩放定律的研究 [Learning transferable visual models from natural language supervision] 揭示了依赖于任务和数据集的缩放行为 [An inverse scaling law for clip training]。基于这些基础见解，本研究代表了对 OCR 背景下缩放定律的独特探索。具体而言，它探索了 Transformer 模型的参数分配和内部结构，目的是优化文本识别的性能。此项研究对不断扩大的缩放定律研究做出了独特的贡献，特别是在尚未得到充分探索的 OCR 领域。

Method Details

在本文中，我们主要关注的是探索基于 Transformer 的模型在文本识别任务中的迁移性能的缩放规律。同时，我们合并了所有公开可用的数据集来构建 REBU-Syn 数据集。本文还包括对从各种来源获得的数据比例的彻底分析。最后，我们将详细概述我们研究中使用的训练参数设置。

Model Scaling

TrOCR： TrOCR 是一个采用纯 Transformer 架构的文本识别模型。它集成了预先训练的计算机视觉 (CV) 和 NLP 模型。这是第一篇将图像 Transformer 和文本 Transformer 联合用于 OCR 文本识别任务的研究成果。Transformer 语言模型和 Vision Transformers 的缩放规律已经被研究过，但 OCR 领域模型的缩放规律尚未被探索。在此基础上，我们缩放了 TrOCR 模型大小，并尝试分析不同大小模型的准确率变化曲线。在 TrOCR 中，编码器和解码器部分分别使用预训练的图像 Transformer 和文本 Transformer 模型。这些预训练模型利用大规模未标记数据进行图像理解和语言建模。因此，TrOCR 不需要额外的语言模型进行后处理，并且该模型在与印刷和手写识别相关的任务中表现优于当前最先进的模型。为了继续从相关任务的预训练中受益，我们选择了 TrOCR 中最适合的编码器和解码器组合进行扩展。
- 对于 TrOCR-S，我们使用 DeiTSMALL 初始化编码器，使用 MiniLM 初始化解码器。 TrOCR-B 使用 BEITBASE 初始化编码器，使用 RoBERTaLARGE 初始化解码器。TrOCR-L 和 TrOCR-H 使用 BEITLARGE 初始化编码器，使用 RoBERTaLARGE 初始化解码器。该模型的参数范围从 4309 万到 10 亿，参数详细信息如下表所示。
- TrOCR 变体的架构规范。
PARSeq：PARSeq 遵循编码器-解码器架构。PARSeq 也基于准确率极高的 Transformer 框架，完全符合我们的研究范围。编码器部分利用 Vision Transformer (ViT) 模型提取图像特征，而解码器遵循与 preLayerNorm 相同的架构。本研究中的 Transformer 解码器使用两倍数量的注意头，其中 nhead = dmodel/32。与标准 ViT 相比，编码器会删除 [class] 标记并将所有输出标记输入解码器。
- PARSeq 在原论文中有两个模型，PARSeqTi 和 PARSeq-S。为了研究 OCR 领域的大模型规律，证明了 ViT 模型的缩放规律。在此基础上，我们将 PARSeq 缩放为 4 种不同的大小。在原论文 PARSeq-S 的基础上，将模型扩展为 3 种大小：PARSeq-B、PARSeq-L 和 PARSeq-H。模型规模也从 2200 万扩展到 6 亿。不同规模 PARSeq 模型的配置见下表。
- PARSeq 变体的架构规范。

Dataset

训练数据集：文本识别的训练数据集通常分为合成数据和真实数据。 从历史上看，由于现实世界数据稀缺，场景文本识别模型主要依赖于合成数据。然而，最近真实数据可用性的增加改变了这一趋势。据观察，在真实数据上训练的模型往往比在合成数据上训练的模型更具样本效率。鉴于此，我们精心收集了合成数据和真实数据，采用各种策略构建了 REBU-Syn 数据集。该数据集包含约 600 万个真实数据样本和 1800 万个公共合成数据样本，如下表所示。REBU-Syn 中合成数据与真实数据的比例为 3:1。此外，我们利用合成技术生成了额外的 6000 万个数据样本，类似于 MJST，称为 MJST +。
- REBU-Syn 数据集的统计数据，包括 Public Real 和 Public Synthetic。还可以使用 Generate Synthetic。
真实数据集：我们从 4 个广泛访问的数据集中收集真实图像来组装 REBU。R 组件由常用的真实数据组成，包括 COCO-Text (COCO) 、RCTW17 、UberText (Uber) 、ArT 、LSVT 、MLT19 、ReCTS 、TextOCR 和 OpenVINO 。[Scene text recognition with permuted autoregressive sequence models] 中介绍了这些数据集的详细分析。U 是 REBU 的另一个部分，包括 14 个数据集中的 400 万张带标签图像，统称为 Union14ML 。B 表示来自基准源的训练数据，涵盖 IIIT 5k 字 (IIIT5k) 、街景文本 (SVT) 、ICDAR13 和 ICDAR15 等数据集。此外，E 由文本检测任务中常用的两个真实数据集的图像组成，即 Total Text 和 CTW1500 。这一包含显著扩展了我们收集的真实数据范围。
公共合成数据集 MJSynth (MJ) 和 SynthText (ST) 是场景文本识别领域中两个广泛使用的合成数据集，分别包含 890 万和 550 万个数据样本。此外，我们还将另外两个复合数据集纳入了我们的研究。曲线合成文本 (CST) 和 SyntheAdd (SA) 。 CST 专为文本检测任务而设计，主要包含曲线文本数据。使用 SynthText 引擎生成的 SA 旨在合成不太常见的字符，包括标点符号。
生成合成数据集为了与 MJ 和 ST 数据集紧密结合，我们使用两个数据生成工具创建了 MJST +：TextRecognitionDataGenerator【https://github.com/Belval/TextRecognitionDataGenerator】和 SynthText【https://github.com/ankush-me/SynthText】。TextRecognitionDataGenerator 擅长生成模拟复杂场景的数据，包括模糊、倾斜和扭曲等效果。另一方面，SynthText 专门合成类似于 ST 的数据，从而生成与自然场景更加无缝融合的样本。
为了增加生成语料库的多样性，我们从全球使用最广泛的英语语料库网站【https://www.english-corpora.org/corpora.asp】中获取了 700,000 条语料条目。对于合成图像的背景选择，我们使用 SynthText 提供的自然场景图片作为背景。利用这两种合成方法，我们成功合成了总共 60M 的数据样本。数据合成代码已发布【https://github.com/large-ocr-model/large-ocr-model.github.io】。
测试数据集为了评估模型的性能，我们使用了 6 个公开可用的真实场景文本数据集：IIIT5k-Words (IIIT5k) 、街景文本 (SVT) 、ICDAR 2013 (IC13) 、ICDAR 2015 (IC15) 、SVTPerspective (SVTP) 和 CUTE80 (CUTE) 。IC13 和 IC15 测试集都有不同的细分。我们遵循 Yu 等人 [Towards accurate scene text recognition with semantic reasoning network] 提出的划分，使用包含 1,811 幅图像的 IC15 测试集版本和包含 857 幅图像的 IC13 测试集。然而，为了解决不同的注释格式以及重复、非拉丁和损坏样本带来的挑战，我们采用了以下数据融合策略：
- 多边形文本：我们从带有多边形注释框的文本检测任务中使用的数据集（例如 Curved SyntheText、SyntheAdd 和 STR Benchmark）中获取合成数据。为了适应这些多边形文本的使用，我们改进了 [Union14ML ] 中提出的方法。我们的方法包括识别多边形的最小边界框并应用透视变换，避免使用最大和最小坐标直接裁剪。此方法保留了 [Union14ML ] 中建议的具有挑战性的样本，同时最大限度地减少了背景干扰，从而使识别器能够专注于相关区域。
- 删除无效字符和样本：专注于具有广泛数据可用性的拉丁字符，我们保留仅由字母和符号组成的样本。不在我们预定义词典中的样本将被丢弃。
- 删除重复数据：当我们整合多个数据集时，其中一些数据集重叠，我们会一丝不苟地删除所有重复的条目。

Experiment Settings

我们利用公开可用的 TrOCR 和 PARSeq 实现作为基线模型。为了实现最佳性能，我们调整了训练周期数并调整了学习率。具体实现细节如下：
- 超参数：在我们的实验中，我们使用配备 32GB 内存的 V100 GPU 来训练所有模型。不同模型的学习率设置不同。具体来说，TrOCR-S 的批处理大小为 1024，学习率为 4e−4。TrOCR-B 的批处理大小为 256，学习率为 1e−4，TrOCR-L 的批处理大小为 128，学习率为 4e-5。我们使用 Fairseq 的 BPE 和 SentencePiece 将文本行标记为单词片段。对于 PARSeq 模型，使用一致的学习率为 7e−4，并将批处理大小调整为尽可能接近 1024。
- 评估指标词语准确率是评估场景文本数据集的主要指标。在这项工作中，我们将最终输出字符串标准化，以匹配常用的 36 个字符集（小写字母数字），以确保在不同模型和数据集之间进行公平比较。

Results and Analysis

Smooth Power Laws

模型性能主要受三个变量的影响：模型参数数量N、训练数据量D和模型计算量C。在本节中，我们探讨这些影响因素与模型性能E之间的幂律。为了有效地表征OCR模型的扩展，我们使用多种模型进行了训练，包括TrOCR和PARSeq。

The power law of model when data is fixed.

TrOCR模型的缩放我们训练了4种不同规模（大小从43.09M到1B）的TrOCR模型。为了保持公平性和与原TrOCR论文中的实验设置一致，我们使用MJ和ST来训练不同模型大小的TrOCR模型。在6个常见测试基准上的实验结果如下表所示。
- 表4：不同 TrOCR 模型大小的单词准确率。训练数据：包含 MJ 和 ST 的合成数据集。
如下图a所示，我们的分析表明，在对数-对数图上，参数数量N与建模性能之间存在线性关系。这种关系可以用幂律方程（ $E = aC^b$ ）来描述。采用附录中的算法1，我们利用前三个模型（TrOCR-S，TrOCR-B和TrOCR-L）获得了幂函数方程E（·）。最后一个模型（TrOCR-H）与拟合的直线准确对齐，证明了幂律的有效性。TrOCR模型的幂律如下。
- $E(N) = (1.97 ∗ 10^4 /N)^{0.223}$
- 扩展 PARSeq 模型为了进一步验证幂律与模型参数的关系，我们使用 REBU-Syn 数据集训练了 4 种不同规模的 PARSeq 模型，这些模型的参数大小从 22M 到 0.6B 不等。下表详细列出了这些实验在 6 个常见测试基准上的结果。
- 表5：PARSeq 不同模型大小下的词准确率。训练数据：REBU-Syn。
- 如下图所示，PARSeq 显示出与 TrOCR 相似的趋势，进一步证明了幂律与模型大小的关系。PARSeq 模型的幂律如下所示。
- $E(N) = (6.316 ∗ 10^{−74}/N)^{0.018},(2)$
- 使用PARSeq模型大小计算了6个常见测试基准上的平均词错误率。实线表示拟合的幂律E(·)，虚线上的点对应于幂律方程。

The power-law of data when model size is fixed.

数据量缩放对TrOCR的影响为了探索数据量对模型性能的影响，我们使用MJ+ST和MJST+来训练TrOCR-B。我们随机抽样了不同尺度的数据，大小从0.75M到75M不等。下表汇总了基于不同尺度数据的TrOCR-B实验结果。
- TrOCR-B 在不同百分比的训练数据中的平均准确率。
我们使用不同程度的数据量（蓝色实线）来拟合幂函数（式3），如下图b中的灰实线所示。数据量其余部分（蓝色虚线表示）仍然紧密遵循幂函数，进一步证明数据量遵循幂函数。
- $E(C) = (4.45 ∗ 10^4 /C)^{−0.3271},(3)$
- 随着模型大小、数据量和训练计算的增加，TrOCR 模型性能得到改善。通过计算 6 个常见测试基准上的平均字错误率来衡量模型性能左图：随着模型大小的变化对模型性能的评估。中图：随着数据量的变化对模型性能的评估。右图：在不同计算资源下不同数据大小的性能变化。x 轴表示模型的训练时间，以 8 GPU 小时为单位。为了获得最佳性能，必须同时扩大所有三个因素。当不受其他两个因素的约束时，经验性能与每个单独因素呈现幂律关系。
PARSeq 数据量的扩展基于数据量的幂律，我们在 ParSeq-S 训练中使用 REBU-Syn。通过逐步扩大数据样本，PARSeq-S 的准确率得到了显著提升（表 7）。
- PARSeq-S 在不同百分比的训练数据中的平均准确率。

The power law of computation

分别通过模型大小和数据量的幂律，我们推断错误率和计算预算也可以符合幂律。我们对 TrOCR 模型进行了研究。结果如上图 c 右侧图中的灰线所示。它可以用公式 4 中的幂公式进行拟合。
- $E(C) = (4.45 ∗ 10^4 /C)^{−0.3271}$

Other Observations

大规模模型可以更好地利用样本。随着我们继续扩大模型规模，模型准确率不断提高。这一现象可以在上文表4和表5中观察到。为了提高训练效果，我们可以利用视觉 Transformer 的缩放定律来修改基于 Transformer 架构构建的识别模型。如下图所示，相对于不同大小的 PARSeq 训练阶段“看到”的图像总数，很明显较大的模型比较小的模型更有效地利用样本。当使用相同数量的样本训练不同大小的 PARSeq 模型时，较小的模型与较大的模型相比表现出更高的错误率。此外，我们观察到较大的模型往往需要更少的 epoch 来收敛。例如，PARSeq-S 在 32 个 epoch 内达到了最佳准确率，而 PARSeq-B 仅需要 14 个 epoch，PARSeq-L 仅需要 5 个 epoch。这些发现表明，在训练资源充足的情况下，用更少的步骤训练更大的模型更为有益。这与语言建模和机器翻译中的发现类似。然而，当训练时间是一个限制因素时，选择较小的模型可能更为实际。
- 针对不同大小的 PARSeq 训练阶段看到的图像（批量大小乘以步数），在 6 个常见测试基准上的平均字错误率。
不同来源的训练数据的比例对于模型训练至关重要。REBU-Syn 包含真实数据和合成数据。根据先前的研究，真实数据在训练效率方面通常优于合成数据，尽管合成数据仍然发挥着重要作用。由于获取和标记真实数据的成本高昂，而真实数据通常无法满足模型训练的数量要求，因此依赖合成数据是必要的。然而，合成数据的有效性提出了一个问题：更多的合成数据是否总是意味着更好的性能？我们的研究结果表明，真实数据和合成数据之间的最佳比例对于提高模型性能至关重要。
为了实现这一目标，我们进行了一项实验，以调查从各种来源获得的数据之间的比例关系，并确定合成数据的最有效利用方式。合成数据主要可分为两类：MJ+ST 和 Syn（CST+SA）。 MJ+ST 的特点是其数量大但性质同质（主要由直线和清晰的样本组成），而 SynText 则具有较小的体积（仅为 MJ+ST 的五分之一）且主要由弯曲的文本组成。为了评估不同合成数据源对模型准确性的影响，我们使用真实数据和这些合成数据集的组合训练了 PARSeq。
如下表所示，结果很有启发性。使用真实数据与 MJ+ST 相结合所实现的准确率为 96.24%，仅比使用真实数据与 Syn 略高 0.05%。鉴于 MJ+ST 的体积是 Syn 的五倍，这意味着复杂的合成数据的样本效率更高。通过同时利用 MJ+ST 和 SynText 的合成数据以及真实数据，我们观察到 PARSeq 的准确率显著提高，使其达到最先进的水平。这种多样化合成数据样式的组合与真实数据相结合，扩大了训练数据分布的范围。这种全面的覆盖有效地提高了模型的整体质量和性能。
- PARSeq-S 整合多种合成和真实数据类型的平均准确度。
此外，我们还研究了不同的合成数据与真实数据比率对 PARSeq-S 准确度的影响。 我们保持真实数据量不变，并逐步增加合成数据量。合成数据与真实数据的比例从 0.5 倍到 5 倍不等。这些不同的比例是通过随机抽样实现的。为了增加合成数据的总量，我们从 MJST + 中随机选择了 1800 万个样本，并将它们与 REBU-Syn 中的合成数据相结合，最终得到总共 3600 万个合成数据样本。
虽然合成数据被证明是有效的，但它需要与真实数据进行仔细的平衡。如下表所示，合成数据的逐渐增加导致准确度有所提高。值得注意的是，当合成数据与真实数据的比例为 1:3 时，准确度最高可达 96.85%。超过这个比例，准确度开始下降，可能是因为数据分布过于偏向合成数据，这可能会对模型性能产生不利影响。因此，我们建议合成数据与真实数据的比例为 1:3。这种平衡可以在不产生过多训练成本的情况下显著提高准确性。
- PARSeq-S 在 6 个常见测试基准上具有不同比例的合成数据和真实数据的平均准确率。
与任务相关的预训练模型更有效。预训练模型在低级视觉任务中的实用性众所周知，但它们在 OCR 任务中的适用性值得研究。为了解决这个问题，我们尝试了各种预训练模型，一些在 ImageNet 上训练，另一些专门用于 OCR 识别任务。在下表的最后两行中，我们保持了与 PARSeq 一致的训练计划、学习率和时期。有趣的是，ImageNet-21k 预训练模型的表现不如从头开始训练的模型，PARSeq 和 CLIP4STR 模型都观察到了这种趋势。这表明，在非 OCR 特定任务上进行预训练可能没有好处，甚至可能对 OCR 性能有害。OCR 任务需要视觉和文本元素之间的联系，类似于 CLIP 实验的最初目的，而纯视觉任务更注重高级语义，缺乏对 OCR 至关重要的文本细微差别。
- 在 6 个常见测试基准上使用视觉任务预训练和 OCR 任务预训练实现的平均准确率。
此外，当我们使用 REBU-Syn 数据集训练 PARSeq-S 时，与仅使用真实数据 REBU 进行训练相比，其准确率更高，达到 96.85%。使用 REBU 对 96.85% 模型进行进一步微调，准确率提高到 97.01%，表明有所改善。这证明了与任务相关的预训练模型在 OCR 任务中的有效性。为了获得更高的准确率，建议先对所有数据进行训练，然后对真实数据进行微调。

Comparison with SOTA Methods

最近，CLIP4STR 在多个基准测试中表现出色，这促使我们在缩放定律的指导下进行了进一步的实验。最初，我们专注于数据组成，采用 3:1 的合成数据与真实数据比例来训练模型，同时使用预训练模型对相关任务进行微调。我们的可重复结果使 CLIP4STRB 得到了显着改进，其准确率从 96.54% 提高到 97.25%，提高了 0.65%。这一成就代表了迄今为止文本识别任务中的最佳结果。
为了进一步探究大型模型的影响，我们在 CLIP4STR-L 上重复了此实验。该模型取得了新的最佳水平，在 6 个常见测试基准上记录了 97.42% 的 top-1 平均准确率，如下表所示。这些发现凸显了大型模型在推动 OCR 领域发展的重要作用。
- 6 个常见测试基准上的单词准确率，* 表示使用 REBU-Syn 进行训练，Avg 是 6 个常见测试基准上的加权平均结果。♯ 表示由我们复制。

Discussion and Conclusion

在本文中，我们确定了 OCR 领域内存在平滑幂律，表明随着模型大小、数据量和计算资源的充分增加，模型性能可预测地提高。此外，我们还确定了对 OCR 中有效模型训练至关重要的几个关键原则：1) 大规模模型更有效地利用样本。2) 来自各种来源的训练数据的比例对于模型训练至关重要；3) 与任务相关的预训练模型可提高有效性。除了确定这些指导原则之外，我们还编制了一个大规模数据集来提高 OCR 模型的性能。利用这些规则，我们成功训练了一个模型，该模型在测试基准上实现了 97.42% 的全新最佳平均准确率。
我们对模型缩放和数据缩放进行了广泛的实验，成功证明了 OCR 中缩放定律的存在。此外，我们观察到数据缩放是一种特别有利的方法，因为它可以提高模型准确性，而不会在训练或推理期间产生额外成本。然而，模型缩放领域仍然存在挑战。虽然大规模模型在大量数据的情况下表现出色，但它们的训练成本要高得多。调整每个参数的成本可能非常高，每次训练迭代都可能花费数百万美元。为了优化这些模型的性能，在训练期间仔细选择最佳超参数至关重要。我们希望我们的工作能够吸引更多研究人员的关注，以降低大规模模型的训练成本。
我们的实验基于大规模自然场景文本数据集，未来我们会考虑在手写、历史文本等更具挑战性的文本识别数据集中探索缩放规律。

An Empirical Study of Scaling Law for OCR Supplementary Materia

More Experiment Analysis

The impact of model training details

对于如何训练出最优的模型，我们对训练时采用的batch size、深度等多个维度进行了相关研究。BatchSize ，我们重点研究了不同批次大小对 PARSeq-B 模型准确率的影响。这项调查对于确定模型的最佳训练条件至关重要。如下表所示，研究结果表明，当批次大小配置为 1024 时，模型达到最佳性能，准确率为 96.35%。这一结果证实了 CLIP4STR 的结论。它强调了较大的批次大小在提高模型准确率方面发挥的重要作用。值得注意的是，我们还观察到过大的批次大小会导致准确率降低，这表明在选择批次大小时需要保持关键平衡以实现最佳模型训练。
- 在常见基准上使用不同批量大小的平均准确度，在真实数据集中训练模型。
Depth， PARSeq 分为编码器和解码器。编码器利用广受认可的 Vision Transformer (ViT) 系列，具体采用 ViT-S 变体。相反，解码器需要进行更复杂的微调，尤其是在深度方面。模型架构的这一方面是我们研究的重点。如下表中所述，我们的实证研究集中在编码器的 ViT-S 配置与解码器的不同深度之间的相互作用上。实验结果很有启发性。在编码器持续使用 ViT-S 的情况下，我们观察到将解码器的深度设置为 1 层可获得最佳模型精度。这表明解码器深度与模型性能之间存在显着关系，强调了精心校准的模型架构对于实现高 OCR 精度的重要性。我们的结果有助于更深入地了解基于 Transformer 的 OCR 模型中的架构细微差别及其对性能的影响。
- 在基准测试集上使用不同深度解码器的平均准确度，在真实数据集中训练模型。

Benefits of pretraining in different languages

在本补充部分中，我们将全面检查特定语言预训练对 OCR 模型的影响，特别关注英语数据集的微调。我们的方法包括使用阿拉伯语、拉丁语和中英文混合语预训练的模型，每个模型都使用来自私人来源的 300,000 个条目的数据集进行训练。这些模型的核心架构基于 CMT-S 框架，详见 Guo 等人 (2022) [Cmt: Convolutional neural networks meet vision transformers]。随后在 REB 数据集上进行二次训练，使用 REBU-Syn，其中采用了不同的特定语言预训练模型。值得注意的是，最终分类层的参数并未从这些预训练模型中加载，以确保公平比较。
如下表所示，我们的结果显示，拉丁文、中文和英文预训练模型的性能均有显著提升，其中拉丁文的提升最为显著。这种提升可能是由于拉丁文和英文文字之间的视觉一致性，强调了 OCR 模型对视觉特征的依赖以实现有效识别。同时，中文和英文预训练模型的性能虽然与拉丁文模型相比略低 0.01%，但表明在预训练阶段加入中文数据可能会引入偏差。
- 在基准测试集上使用特定语言预训练的平均准确度，在 REB 的真实数据集中训练模型。
有趣的是，用阿拉伯语预训练的模型并没有表现出比未预训练模型显著的优势。这可以归因于阿拉伯语和英语文字之间明显的视觉差异，这进一步证实了视觉相似性在 OCR 任务预训练效果中起着至关重要的作用。总的来说，这些发现表明，使用视觉上与目标语言相似的语言对 OCR 模型进行预训练可以带来更大的好处。相反，文字之间明显的视觉差异抵消了预训练的优势，这是开发有效 OCR 系统的关键考虑因素。

Comparisons on Union14M benchmark

为了评估模型的泛化能力，我们使用 Union14M 基准数据集进行了广泛的评估。该基准特别全面，涵盖了大量现实世界的文本数据，系统地分为七个不同的子集：艺术、无语境、曲线、一般、多方向、多词和突出。下表中显示的评估结果证明了该模型在一系列场景中稳健且一致的性能。值得注意的是，在与标准基准和多方面的 Union14M 数据集的比较评估中，CLIP4STR-L* 模型表现出色。该模型在大多数数据集上都表现出卓越的准确性。它能够始终如一地提供高质量的结果，特别是在具有挑战性的 Union14M 基准的背景下，这凸显了其稳健性和多功能性。这样的表现凸显了 CLIP4STR-L* 架构在处理各种文本数据场景方面的有效性，使其成为该领域的基准。
- Union14M 基准上的词汇准确率，* 表示使用 REBU-Syn 进行训练。

Visulization Analysis

在下图中，我们展示了我们的模型在 Union14M 基准的七个主要类别中的表现。结果表明，我们的模型在大多数数据集中表现优异。然而，在 Contextless 数据集中，效果略有下降。这可以归因于文本编码器在处理缺乏语义信息的文本方面的局限性。
- Union14M 基准的误差分析。我们选择了三个代表性模型并展示了它们的预测结果（黑色文本代表正确预测，红色文本代表相反）
尽管如此，我们的模型与其他当代 OCR 系统相比，其优势在于其能够更准确地解释和处理各种复杂的现实场景。这一进步大大增强了 OCR 模型的稳健性，使其能够在各种具有挑战性的环境中更可靠地运行。我们模型的增强稳健性不仅展示了其技术优势，还强调了其在高可变性和复杂性的现实环境中的实际适用性。

OCR Enhanced LMM

在大型模型领域，我们观察到明显的两大类别：大型语言模型 (LLM) 和大型多模态模型 (LMM)。必须承认，虽然 LLM 缺乏视觉组件，但 LMM 的视觉分支在 OCR 功能方面仍有提升空间。这一观察结果强调了大型模型中 OCR 能力相对欠发达。然而，光学字符识别 (OCR) 任务为解决这一不足提供了一条有希望的途径，从而促使我们研究将 OCR 与这些模型相结合的好处。
数据集和指标我们的分析利用了视觉问答 (VQA) 系列中的各种任务，特别是 STVQA 、TextVQA 、DocVQA 和 InfoVQA 。虽然 STVQA 和 TextVQA 面向自然场景，但 DocVQA 和 InfoVQA 专注于一般文档上下文。以下是评估数据集的一些详细信息：
- STVQA 包含 31K 个需要理解场景文本的问题，基于来自以下来源的 23K 张图像：ICDAR2013 和 ICDAR2015、ImageNet 、VizWiz 、IIIT 场景文本检索、Visual Genome 和 COCO-Text。
- TextVQA 包含 45K 个问题，需要基于 28K 个自然图像中的图像读取和推理图像中的文本。
- DocVQA 包含来自行业文档的 50K 个问题和 12K 个图像。
- InfoVQA 包含 30K 个需要理解文档文本的问题，基于 5.4K 张结合了信息图表中的文本、图形和视觉元素的图像。
我们采用平均标准化编辑相似度 (ANLS) 作为评估指标，这是 VQA 领域的标准。
实验设置：对于大规模模型，我们选择了最近发布的 Qwen-VL-chat ，这是一个最先进的多模态模型。在 OCR 方面，我们使用 Rosetta 进行检测，使用 CLIP4STR-L* 进行识别。我们首先将通过坐标信息识别的文本连接起来以生成 OCR 标记。这些标记与问题相结合，形成了我们的提示。提示格式被精心细化为：“OCR 标记：{ocrtokens}，请根据 OCR 标记和图片回答以下问题，{question}”。这种方法涉及将提示和图像都输入到大规模模型中。
结果与分析：我们进行了详细的比较分析以评估 QWen-VL-chat 模型的准确性，检查了集成和不集成 OCR 时的性能，如表 5 所示。我们的结果表明，集成 OCR 后，基于场景的 VQA 任务模型的准确性显著提高。此外，基于文档的 VQA 任务也有明显的增强。这些发现表明，加入 OCR 不仅可以提高模型的准确性，而且还扩展了其在不同 VQA 场景中的泛化能力。这一证据清楚地突出了 OCR 输入在增强 LVLM 下游任务性能方面发挥的重要作用。此外，集成 OCR 后准确性的提高凸显了模型解释和分析组合视觉和文本数据的能力增强，从而验证了多模态方法在应对复杂分析挑战方面的有效性。
VQA 可视化分析我们对带有和不带有 OCR 模块的 QWen-VL-Chat 在不同数据集上的可视化分析提供了关键见解。在自然场景视觉问答 (VQA) 任务中，QWen-VL-Chat 在检测图像中的小文本时遇到困难。在下图的左上角，该模型忽略了相关内容，错误地指示其不存在。此外，它不准确地完成模糊文本的倾向源于其复杂的语言能力。这在下图的右上角很明显，其中“45th parallel dr”中的“dr”被错误地扩展为“drive”。值得注意的是，通过集成我们的 OCR 模块，模型的文本错误识别问题得到了显着缓解，例如将下图左下角所示的香烟盒上的“honghe”转换为“Hongte”（将第二个“h”误认为“t”）。
- 自然场景 VQA 中带有或不带有 OCR 的 QWen-VL-Chat 的视觉答案比较。
在涉及密集文本信息的一般文档场景中，QWen-VL-Chat 的性能仍然不理想。在下图的左侧，当被要求在大量文本中识别广告中的品牌时，该模型会错误地从图像中生成不存在的单词。加入 OCR 至关重要地引导模型实现准确的文本识别。这种模式与下图右侧基于表格的 VQA 任务一致，其中模型经常在其响应中出错。加入 OCR 被证明有助于引导模型获得正确答案。这项全面的分析强调了 OCR 在增强 LMM 模型在复杂的视觉文本环境中的理解和识别能力方面的关键作用。
- 文档 VQA 中带有或不带有 OCR 的 QWen-VL-Chat 的视觉答案比较。

Scaling law algorithm description

我们根据缩放因子将性能的幂律形式化，实现的细节如算法 1 所示。

The scaling law on Union14M benchmark

我们在 Union14M 基准上补充了缩放定律实验。PARSeq-(S/B/L) 和 CLIP4STR-(S/B/L) 在 Union14M 基准上的参数和准确率分别如表 7 和表 6 所示。 CLIP4STR 和 PARSeq 模型上的缩放定律曲线如图 4 所示。这表明缩放定律在 union14M 基准上仍然适用。
- 左图： Union14M 上的 PARSeq-(S/B/L) 结果。右图： Union14M 上的 CLIP4STR-(S/B/L) 结果。
- CLIP4STR 不同模型大小下的词准确率。测试数据：Union14M。
- CLIP4STR 不同模型大小下的词准确率。测试数据：Union14M。

Applicability in document contexts

除了 STR 基准之外，我们还使用文档数据集上的缩放模型大小来验证幂律。FUNSD 数据集包含大量扫描文档，每个样本都带有详细文本、单词边界框和结构化标签注释。它旨在支持研究人员开发和评估模型性能，以便在嘈杂的现实世界中处理和理解扫描文档中的信息。值得注意的是，CLIP4STR-L* 实现了 96.5% 的 SOTA 准确率，超过了之前最好的 CLIP4STR-L。实验结果如下表所示。这些结果凸显了 CLIP4STRL* 在场景和文档文本识别任务中的稳健性。
- CLIP4STR-L 在 FUNSD 上的准确度。