【读点论文】EXPLORING OCR CAPABILITIES OF GPT-4V(ISION)，虽然比不上专用模型，但也有一定的识别能力，对OCR下游任务有一定支持

最新推荐文章于 2024-07-12 23:30:00 发布

羞儿

最新推荐文章于 2024-07-12 23:30:00 发布

阅读量1.1k

点赞数 14

分类专栏：论文笔记文章标签： ocr 人工智能 GPT-4

本文链接：https://blog.csdn.net/weixin_43424450/article/details/136308078

版权

论文笔记专栏收录该内容

135 篇文章 31 订阅

订阅专栏

EXPLORING OCR CAPABILITIES OF GPT-4V(ISION) : A QUANTITATIVE AND IN-DEPTH EVALUATION

ABSTRACT

本文对最近发布的大型多模态模型(LMM) GPT-4V(vision)的光学字符识别(OCR)能力进行了全面评估。我们评估了该模型在一系列OCR任务中的性能，包括场景文本识别、手写文本识别、手写数学表达式识别、表结构识别和从视觉丰富的文档中提取信息。评估显示，GPT-4V在识别和理解拉丁语内容方面表现良好，但在多语言场景和复杂任务方面表现不佳。具体来说，它在处理非拉丁语言和复杂任务(如手写数学表达式识别、表结构识别、端到端语义实体识别和从文档图像中提取对)时显示出局限性。基于这些观察，我们肯定了专门的OCR模型的必要性和持续研究的价值。一般来说，尽管GPT-4V在处理各种OCR任务方面具有通用性，但它的性能并不优于现有的最先进的OCR模型。如何充分利用预训练的通用 lmm (如GPT-4V)进行OCR下游任务仍然是一个悬而未决的问题。本研究为今后lmm的OCR研究提供了重要参考。评估流程和结果可在https://github.com/SCUT-DLVCLab/GPT-4V_OCR上获得。

Introduction

ChatGPT的出现标志着人工智能(AI)领域的一个重要里程碑。与此同时，它也引发了学术界和工业界对大型语言模型(llm)研究的热潮，如GLM-130B , Alpaca , Vicuna , LLaMA , ERNIE Bot , Qwen , Baichuan2 . 等模型。法学硕士的成功也促进了大型多式联运模式(lmm)的发展。目前，许多倡议都在努力扩展llm的多模式功能，包括BLIP-2、OpenFlamingo、LLaVA、MiniGPT4和mPLUG-Owl。
特别是，最近发布的GPT-4V(vision)在lmm领域取得了重大突破。不同领域的研究人员都渴望了解GPT-4V的能力，光学字符识别(OCR)领域的研究人员对其解决OCR任务的潜力表现出特别的好奇。虽然官方报告定性地展示了GPT-4V在几个ocr相关任务(包括文本识别、表情识别和文档理解)中的能力，但迫切需要定量评估和深入分析，这将为未来的研究提供有价值的见解和重要的参考。
为此，我们对GPT-4V 在主流 OCR 务上进行了定量评估，包括场景文本识别(STR)、手写文本识别(HTR)、手写数学表达式识别(HMER)、表结构识别(TSR)和视觉丰富文档信息提取(VIE)。对于上述任务，我们使用了OCR领域中常用的一些基准进行评估:(1)STR: CUTE80 ， SCUT-CTW1500 ， Total-Text ， WordArt ， ReCTS和MLT19 ， (2) HTR: IAM和CASIA-HWDB ， (3) HMER: CROHME2014和HME100K ， (4) TSR: SciTSR和WTW ， (5) VIE: fundd和XFUND中文子集(XFUND-zh)。
评估结果表明，GPT-4V与专用OCR模型的性能不匹配。具体来说，GPT-4V在拉丁语内容方面表现优异，但在处理其他语言时遇到限制。此外，GPT-4V在HMER, TSR和VIE等复杂场景下的任务中挣扎。
基于实验结果，我们试图解决一个重要的问题:专业模型在OCR领域是否仍然具有研究价值?鉴于GPT-4V的三个关键缺陷，即在多语言和复杂场景下的有限性能，高推理成本和更新挑战，我们认为现有的lmm难以同时处理各种OCR任务。因此，我们肯定了专门模型在OCR领域的持续研究价值。然而，在未来的OCR研究中，利用像GPT-4V这样的lmm的潜力仍然至关重要。可能有三个潜在的方向值得研究，包括语义理解增强、下游任务调优和自动/半自动数据构建。

Experiments

我们在以下OCR任务上对GPT-4V进行了评估:场景文本识别、手写文本识别、手写数学表达式识别、表结构识别和从视觉丰富的文档中提取信息。评估过程在GPT-4V的网络对话界面中进行，我们直接上传图像和提示，然后从生成的回复中提取相关答案。每个任务的提示都是精心设计的。此外，为了防止上下文信息的干扰，我们为每个图像使用了单独的对话窗口。由于GPT-4V的会话限制(每3小时50次会话)，我们对大量样本的数据集进行了采样。

Scene text recognition

我们专注于词级文本识别和端到端文本识别。对于词级文本识别，我们使用了英语中的CUTE80、SCUT-CTW1500、Total-Text、WordArt和中文中的ReCTS。我们从上面的每个数据集中随机选择50张图像进行评估。数据集从[GitHub - Yuliang-Liu/MultimodalOCR: On the Hidden Mystery of OCR in Large Multimodal Models (OCRBench)]下载。
- 说明字级场景文本识别。在GPT-4V的答案中，我们将与GT匹配的字符用绿色突出，不匹配的字符用红色突出。GPT-4V可以识别曲线型、斜体、艺术型的英文文本，而不能识别普通字体的中文文本。
- CUTE80包含80张专门用于评估弯曲文本的图像。
- SCUT-CTW1500是一个包含1500张图像的综合曲线文本数据集。
- Total-Text有1555个场景图像，这些图像是用曲线文本收集的。
- WordArt由6316个艺术文本图像组成，主要以具有挑战性的艺术文本为特色。
- ReCTS是一个包含25000张图片的大型数据集，主要用于标识牌中文文本的读取。
在端到端文本识别任务中，我们使用MLT19来评估GPT-4V的多语言能力。对于每种语言，我们从训练集中随机选择20张图像。此外，为了研究图像分辨率对识别结果的影响，我们从上述子集中选择了20张英文图像，并将它们的长边分别调整为128、256、512、1024和2048像素。
- MLT19是一个用于多语言场景文本(MLT)检测和识别的数据集，它由包含10种语言文本的20,000张图像组成。
对于单词级的英语文本识别，我们使用以下提示:“图像中的场景文本是什么?”，而对于中文的ReCTS，我们将提示翻译成中文，得到:“图片中的场景文字是什么？”端到端文本识别的提示是:“图像中的所有场景文本是什么?不要翻译。”
为了评价词级识别，我们采用忽略大小写和符号的词精度(WAICS)作为度量。在端到端文本识别任务中，GPT-4V 和 ground truth (GT) 的预测被空格分割，然后使用准确率和召回率进行评估。准确率表示正确识别的单词与GPT-4V生成的单词的比率，召回率是正确识别的单词与GT单词总数的比率。我们还计算 $F_1$ 分数如下。
- $F_1=\frac{2·precision·recall}{precision+recall}$
结果与分析结果分别如表1、表2、表3所示。我们在后文图中可视化了一些示例。根据研究结果，我们得出以下结论:
- (1)对中英文文本的识别准确率存在较大差异。如下表所示，英文文本识别的性能是值得称道的。相反，中文文本识别的准确率为零(ReCTS)。我们推测这可能是由于GPT-4V中缺乏中文场景文本图像作为训练数据。
  - 词级场景文本识别结果。CUTE80和WordArt的SOTA分别由[Revisiting scene text recognition: A data perspective]和[Looking and listening: Audio guided text recognition.]实现。[Reading and writing: Discriminative and generative modeling for self-supervised text recognition]报道了SCUT-CTW1500和Total-Text的SOTA。ReCTS的SOTA可以在[Stanford Alpaca: An instruction-following LLaMA model]中找到。
- (2) GPT-4V对拉丁字符的识别能力较强，优于其他语言。如下表所示，可以观察到，与非拉丁字母语言相比，GPT-4V在英语、法语、德语和意大利语中的表现明显更好。这表明GPT-4V的多语言OCR功能存在明显的局限性。
- (3) GPT-4V支持不同分辨率的输入图像。如下表所示，输入图像分辨率与识别性能呈正相关关系。这表明，与以前的lmm将图像调整为固定大小不同，GPT-4V支持可变分辨率的输入图像。同时，我们假设GPT-4V的图像编码器采用固定的patch大小，因此增加输入图像的分辨率会导致更长的序列，这有助于模型捕获更多的信息。

Handwritten text recognition

为了评估GPT-4V在手写文本识别方面的能力，我们使用了两个常用的手写数据集:IAM](英文)和CASIA-HWDB(中文)。我们从IAM和CASIA-HWDB的每个测试集中随机抽取50页和50个文本行进行评估。
- IAM包括1539页和13353行手写英文文本。
- CASIA-HWDB是一个离线手写中文数据集，包含约5090页和135万个字符样本，7356个类别(7185个汉字和171个符号)。
提示词：对于IAM，我们使用提示:“Recognize the text in the image.”作为输入。CASIA-HWDB,我们使用中国提示“请直接告诉我,图片中的文字都是什么?，意思是“Please tell me directly, what are all the text in the image?”
手写英语文本的评估有两个指标:单词错误率(Word Error Rate, WER)和字符错误率(Character Error Rate, CER)。为了评估手写中文文本的性能，我们使用 AR 和 CR 指标。
- (1)英文和中文手写文本也存在显著的性能差距。这一现象与2.1节的研究结果一致，共同表明 GPT-4V 在英文文本识别方面表现良好，但在中文文本识别方面面临显著挑战。
- (2) GPT-4V在中文文本识别中表现出显著的幻觉。如上图 ©和(d)所示，GPT-4V生成的响应在语法和语义上都表现出高度的流畅性。然而，它们实质上偏离了(GT) 的文本内容，似乎以一种看似认真的方式产生了无意义的信息。
- 手写文本识别的插图。(a)、(b)、©、(d)分别是页级IAM、行级IAM、页级CASIA-HWDB和行级CASIA-HWDB的示例。在 GPT-4V 的响应中，我们用绿色突出显示与GT匹配的字符，用红色突出显示不匹配的字符。对于英文文本，GPT-4V表现出色。相比之下，对于中文文本，GPT-4V生成了一段语义连贯的文本，但它不与文本(GT)相关联。
- CASIA-HWDB结果。页面级CASIA-HWDB在AR和CR指标中的SOTA分别由[Writer-aware CNN for parsimonious HMM-based offline handwritten Chinese text recognition]和[High performance offline handwritten Chinese text recognition with a new data preprocessing and augmentation pipeline]实现。而线级SOTA是通过[Recognition of handwritten Chinese text by segmentation: a segment-annotation-free approach]实现的。

Handwritten mathematical expression recognition

在本任务中，我们使用了两个具有代表性的数据集:CROHME2014和HME100K。我们从这两个数据集的每个测试集中随机选择50张图像进行评估。
- CROHME2014是手写数学表达式识别的经典在线数据集，包含9820个数学表达式样本。
- HME100K是一个大规模的手写数学表达式识别数据集，它包含了来自10000个写作者的100k张图像，主要由相机捕捉。
提示词：在这个任务中，我们使用“This is an image of a handwritten mathematical expression. Please recognize the expression above as LaTeX”。
我们采用的指标包括表达水平的正确率，最多有一到三个错误。
结果与分析结果如下表所示。通过对失败案例的分析，我们得出以下结论。
- (1) GPT-4V在处理摄像头捕捉和字迹不佳的场景时似乎受到限制。如上表所示，与CROHME2014相比，HEM100K(具有相机捕获的图像和较差的笔迹)的性能显著下降。如下图所示，(a)和©是来自CROHME2014的示例，(b)和(d)是来自HEM100K的示例，GPT-4V在前者上表现良好，而在后者上表现较差。
- (2) GPT-4V在细粒度字符识别方面存在一定的挑战。在失败的案例中，我们观察到 GPT-4V 偶尔会遗漏小规模字符。下图 (e)和(f)中显示了两个示例。对于这两个例子，GPT-4V分别省略了一个上标和一个下标。这一发现与Liu等人对其他多模态模型的评估结果一致，表明GPT-4V也可能存在某些细粒度的感知问题。
- 手写数学表达式识别的插图。在每个示例中，左侧显示输入图像，而右侧显示GPT-4V从LaTeX序列输出呈现的图像。在GPT-4V的答案中，我们用绿色标出与GT匹配的元素，用红色标出与GT不匹配的元素。红色的符号 _ 表示输出中缺少的元素。

Table structure recognition

我们用于这项任务的数据集包括SciTSR和WTW。我们从SciTSR和WTW的每个测试集中随机选择50个表进行评估。接下来[TSRFormer: Table structure recognition with transformers]，我们从原始图像中裁剪表格区域进行评估。
- SciTSR是为解决科学论文中表结构识别任务而创建的专用数据集。该数据集由12000个训练样本和3000个测试样本组成。
- WTW的图片是在野外收集的。数据集分为训练/测试集，分别有10,970和3,611个样本。
对于SciTSR和WTW，我们都使用提示符“Please read the table in this image and return a html-style reconstructed table in text, do not omit anything”作为输入。
为了评估GPT-4V在表结构识别中的性能，我们使用了TEDS- s指标，这是基于树编辑距离的相似性(TEDS)的一种变体，它不考虑单元格的文本内容，只评估表结构预测的准确性。结果与分析结果如下表所示。基于这些结果，我们得到了两个重要的发现:
- (1) GPT-4V难以处理复杂的表。GPT-4V在处理具有结构化布局和一致文本分布的表时表现出出色的性能，如下图(a)。然而，当处理其他类型的表时，包括那些具有大量空单元格、不均匀文本分布、倾斜、旋转或密集排列的表，其性能明显下降。
- (2) GPT-4V在处理长表时存在内容遗漏问题。尽管在提示中强调了“不要省略任何东西”的要求，但我们仍然在回复中观察到一些内容省略的情况，特别是在一个大表的情况下。一个典型的例子如下图 (e)所示，表图像图 ©包含许多行，但GPT-4V只重建其中的三行。
- 表结构识别的说明。(a)、©为两张输入图像，(b)、(d)为GPT-4V的html样式输出序列对应的可视化图像。(e)为©的输出序列，其中GPT-4V表示省略内容的元素以红色突出显示。

Information Extraction from Visually-rich Document

我们在fundd和XFUND中文子集(XFUND-zh)上评估GPT-4V。
- fundd数据集是一个常用的表单理解基准，它包含199个扫描的带有噪声图像的类表单文档。
- XFUND数据集是fundd的多语言扩展，涵盖七种语言(中文、日语、法语、意大利语、德语、西班牙语和葡萄牙语)。
我们在语义实体识别(SER)和端到端对抽取任务上对GPT-4V进行了评估。SER任务要求模型识别每个文本段的类别，这些文本段在fundd和XFUND中预定义为标题、问题、答案等。端到端对提取任务要求模型提取给定文档图像中的所有键值对。我们使用完整的测试集(fundd和XFUND-zh都包含50个样本)进行性能评估
对于fundd，我们使用以下提示符进行SER:【Please read the text in this image and return the information in the following JSON format (note xxx is placeholder, if the information is not available in the image, put “N/A” instead). “header”: [xxx, …], “key”: [xxx, …], “value”: [xxx, …]】。需要强调的是，我们将“问题”和“答案”的官方实体类型重新定义为“键”和“值”，以保持与Pair提取任务的一致性。对于端到端的Pair提取，我们使用以下提示符:【You are a document understanding AI, who reads the contents in the given document image and tells the information that the user needs. Respond with the original content in the document image, do not reformat. No extra explanation is needed. Extract all the key-value pairs from the document image.】
对于SER任务，我们采用实体级 $F_1$ 分数进行性能评估。此外，与其他端到端 VIE 方法一样，也计算归一化编辑距离(NED)。然而，由于 GPT-4V 为实体生成精确边界框的能力的限制，我们使用最小编辑距离原则将预测与 GT 对齐。SER和Pair Extraction的结果分别见8和9。我们发现:
- (1) GPT-4V对文件空间排列的理解可能存在局限性。如下图所示，位于页面顶部附近的一些文本内容，由于缺乏与标题类别的视觉和语义对齐，因此被错误地识别为标题。下下图中提供了其他可视化效果。显然，GPT-4V擅长分析具有简单布局的文档，但难以理解那些具有复杂布局的文档。
  - SER任务的错误情况说明。红色框内的文本内容被错误地标识为标题实体。
  - 在fundd数据集中对完整文档图像进行实体预测的说明。由于GPT-4V识别汉字的能力有限，我们在此上下文中从XFUND-zh数据集中排除了示例。放大查看最佳评论。
- (2) GPT4V倾向于为非kv对内容生成新的密钥。例如，如下图所示，标题部分的内容“09/ 17 /97 10:55”被识别为“Date: 09/18/97”，“Time: 10:55”，“Fax Number: 503 841 1898”，“Company: LORILLARD PTLD”，“Page Number: 001”。
  - 配对抽取任务的错误案例说明。红色框内的文本内容被错误地标识为实体对。

Discussions

专门化模型在OCR领域还有研究价值吗?GPT-4V有三个主要缺点。(1)从第2节的实验结果来看，GPT-4V的OCR能力仅限于拉丁文内容，难以应对多语种复杂场景。(2)推理成本和延迟都非常高，在一些实际场景中存在可用性挑战。(3)更新周期长，过程复杂，小问题难以及时解决。考虑到上述缺点和其他一些lmm有限的OCR能力[On the hidden mystery of OCR in large multimodal models]，我们认为现有的lmm很难同时在各种OCR任务中表现出色。因此，我们认为，在OCR领域的专业模型继续具有重要的研究价值。
我们如何才能充分利用像GPT-4V这样的lmm在OCR领域的潜力?这些是一些可能的策略。(1)语义理解增强:lmm的一个显著特点是经过大规模数据的大量训练，其语义能力突出。由于语义理解是文档理解和一些相关任务的关键因素，因此利用lmm的语义潜力可以大大提高这些任务的性能。(2)下游任务微调:另一种充分利用lmm先验知识的方法是微调，特别是在数据有限的情况下。微调允许模型适应特定的任务或领域，从而提高性能。(3)自动/半自动数据构建:使用LMMs进行自动/半自动数据标注和生成，将大大降低人工标注的成本，是解决数据获取困难的有效策略。

Limitations

我们的工作有三个主要的局限性。首先，由于GPT-4V的会话限制(每3小时50次会话)，我们评估的测试样本是小规模的(每个数据集大多是50个样本)。这可能会限制结果的普遍性。其次，我们的评估主要集中在主流的OCR任务上，不包括其他与OCR相关的任务。因此，这些发现可能无法涵盖GPT-4V的全部OCR功能。第三，仅评估了GPT-4V在OCR中的 zero-shot 容量，而没有探索 few-shot 场景。因此，针对特定任务的进一步训练或微调LLM模型的潜在好处没有得到解决。使用情境学习等技术的少量场景在未来值得探索。

Conclusion

在本文中，我们通过各种实验对GPT-4V的OCR能力进行了全面评估。我们首次不仅提供了定性演示，还提供了GPT4V在广泛任务中的定量性能分析。这些任务包括场景文本识别、手写文本识别、手写数学表达式识别、表结构识别和从视觉丰富的文档中提取信息。
我们的研究结果基于细致的实验结果，对GPT-4V的优势和局限性进行了深入分析。尽管该模型在准确识别拉丁语内容和支持可变分辨率的输入图像方面表现出很强的能力，但它在多语言和复杂场景中表现出明显的困难。此外，高推断成本和持续更新带来的挑战对GPT-4V的实际部署构成了重大障碍。因此，我们认为，在OCR领域的专业模型继续具有重要的研究价值。尽管存在这些限制，GPT-4V和其他现有的通用lmm仍然可以在几个方面为OCR领域的发展做出重大贡献。这将包括增强语义理解、对下游任务进行微调，以及促进自动/半自动数据构建。
综上所述，本文首次对GPT-4V在OCR任务中的表现进行了深入的定量评估。我们将在未来不断更新评估结果，我们希望本文的发现将为使用大型多模态模型的OCR任务的研究人员和实践者提供有价值的见解和策略。

羞儿

关注

14
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
2
评论
【读点论文】EXPLORING OCR CAPABILITIES OF GPT-4V(ISION)，虽然比不上专用模型，但也有一定的识别能力，对OCR下游任务有一定支持

如下图所示，(a)和©是来自CROHME2014的示例，(b)和(d)是来自HEM100K的示例，GPT-4V在前者上表现良好，而在后者上表现较差。为了评估GPT-4V在表结构识别中的性能，我们使用了TEDS- s指标，这是基于树编辑距离的相似性(TEDS)的一种变体，它不考虑单元格的文本内容，只评估表结构预测的准确性。”端到端文本识别的提示是:“图像中的所有场景文本是什么?为了评估GPT-4V在手写文本识别方面的能力，我们使用了两个常用的手写数据集:IAM](英文)和CASIA-HWDB(中文)。
复制链接

扫一扫