【读点论文】COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Na ...了解一种数据集构建方式

羞儿

于 2024-09-03 18:51:58 发布

阅读量1.2k

点赞数 18

分类专栏：论文笔记文章标签：计算机视觉数据集 OCR

本文链接：https://blog.csdn.net/weixin_43424450/article/details/141869023

版权

论文笔记专栏收录该内容

158 篇文章

订阅专栏

COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images

Abstract

本文介绍了 COCO-Text 数据集。近年来，SUN 和 Imagenet 等大规模数据集推动了场景理解和对象识别的发展。COCO-Text 的目标是推动自然图像中文本检测和识别的最新技术。该数据集基于 MS COCO 数据集，其中包含复杂的日常场景图像。这些图像在收集时并未考虑文本，因此包含各种各样的文本实例。为了反映自然场景中文本的多样性，我们用以下方式注释文本：(a) 根据边界框的位置、(b) 细粒度分类为机器打印文本和手写文本、© 分类为可读文本和不可读文本、(d) 文本脚本和 (e) 可读文本的转录。该数据集包含超过 63k 张图像中的超过 173k 条文本注释。我们对注释的准确性进行了统计分析。此外，我们还对数据集上三种领先的最新照片光学字符识别 (OCR) 方法进行了分析。虽然场景文本检测和识别近年来取得了长足的进步，但我们发现了一些重大的缺点，这将激励未来的工作。

Introduction

在不受约束的环境下检测和识别自然图像中的场景文本仍然是计算机视觉领域的一个难题。在不受约束的场景中稳健地读取文本的能力可以极大地帮助许多现实世界的应用，例如视障人士的辅助技术、机器人导航和地理定位。近年来，检测和识别场景中的文本问题越来越受到计算机视觉界的关注。评估通常在包含图像的数据集上进行，这些图像大多是标志性文本，最多包含数百张图像。
为了加深对无约束场景中文本的理解，我们提出了一个新的大规模自然图像文本数据集。该数据集基于 Microsoft COCO 数据集，该数据集在自然环境中注释常见对象。将富文本注释和自然图像中的对象注释相结合，为场景文本检测和识别的研究提供了绝佳的机会。MS COCO 不是在考虑文本的情况下收集的，因此可能对文本的偏见较小。此外，将文本与对象注释相结合可以对场景文本和对象进行上下文推理。在对 MS COCO 上最先进的照片 OCR 方法进行初步研究时，我们得出了两个关键观察结果：首先，自然场景中的文本非常多样化，从街道标志上清晰的机器打印文本到难以辨认的涂鸦和手写笔记。其次，虽然场景文本检测和识别领域近年来取得了重大进展，但要达到现实世界应用所需的性能还有很长的路要走。图 1 显示了数据集中的样本图像，说明了自然图像中场景文本的多样性以及文本检测和识别的挑战。
- 图 1. 左图：带有对象分割和标题的 MS COCO 图像示例。右图：COCO-Text 注释。对于顶部图像，照片 OCR 找到并识别了公交车上印刷的文字。对于底部图像，OCR 无法识别水果摊上的手写价格标签。
这项工作的主要贡献是 COCO-Text 数据集。该数据集的目的是为研究界提供一种资源，以推进场景文本检测和识别的最新进展，并帮助评估现有方法的缺点。该数据集包含 63,686 张图像，其中有 173,589 个带标签的文本区域。对于每个文本区域，我们提供边界框的位置、易读性分类、类别（例如机器打印或手写）和文本脚本，以及西方脚本易读文本的转录。我们还提供了注释流程的详细描述。此外，我们还对我们的数据集上的三种领先的最新照片 OCR 算法进行了分析。结果表明，一些方法实现了出色的检测精度和良好的转录准确性。然而，文本检测的召回率大大降低。特别是，对于难以辨认的文本，没有一种方法显示出可行的功能。这些重大缺陷激励着未来的工作。

Related Work

在本文中，我们引入了自然图像中文本的大规模数据集，以支持数据驱动的场景文本检测和识别方法的进步。因此，我们将讨论限制在相关数据集、最先进的场景文本识别、将文本与上下文线索相结合的方法以及标记任务分配的进展上。
近年来，SUN 、Imagenet 和 MS COCO 等大规模数据集推动了计算机视觉多个领域的发展。所呈现的数据集基于 MS COCO 及其图像字幕扩展。我们利用这些数据集中的丰富注释来优化注释者的任务分配。这项工作是在其他场景文本数据集的背景下开展的。图 2 将 COCO-Text 与相关数据集进行了比较。ICDAR Robust Reading 挑战赛（从现在起称为 ICDAR 03）是第一个用于检测和识别场景文本的公共数据集。该数据集包含 509 张场景图像，场景文本大多居中且具有标志性。该挑战赛的最新版本引入了一项关于偶然场景文本的竞赛，称为 ICDAR 15，其中包含使用可穿戴设备获取的约 1500 张图像。这些图像包含 11,886 个文本实例。此外，街景文本共包含 350 张来自 Google 街景的图像和 725 个带标签的单词，但它仅包含图像中一小部分文本的注释。
- 图 2. 数据集统计数据：(a) COCO-Text 每个类别的注释实例数。(b) 流行场景文本数据集的文本属性数与实例数。© COCO-Text、ICDAR03 和 ICDAR15 每幅图像的注释实例数。(d) 相同数据集的实例大小分布。(e) 相同数据集的空间文本出现概率。
其他场景文本数据集包括 IIIT 5k-word ，其中包含从 Google 图片搜索下载的 3000 张场景文本裁剪词图像，以及 Synth90k ，这是一个包含 900 万张裁剪词图像的数据集，这些图像是通过合成生成的，用于训练字符识别系统。所提出的 COCO-Text 数据集与以前的数据集在三个关键方面有所不同：首先，MS COCO 中的图像在选择时并未考虑文本。因此，带注释的文本实例位于其自然上下文中。这对于在复杂的日常场景中检测文本尤为重要。此外，文本具有更广泛的空间出现分布（图 2 (e)）。其次，COCO-Text 包含各种各样的文本实例，我们注释了细粒度类别，例如机器打印的文本和手写文本、文本可读性以及脚本。第三，COCO-Text 的规模比其他用于文本检测和识别的数据集大得多。特别是，我们的数据集的文本注释比相关数据集多 14 倍以上。图 2（b）概述了数据集的大小和注释属性的数量。
场景文本检测和识别方法通常包括两部分：检测图像中的提议文本区域，并识别这些区域中的单词。该领域的当前工作包括 Bissacco 等人的方法，其中首先将三个不同的检测器组合起来以识别文本区域，然后使用全连接神经网络对字符进行分类，该神经网络以 HOG 特征为输入，并由基于 ngram 的语言模型支持。此外，Neumann 和 Matas 首先识别极值区域，将它们分组为单词，然后选择最可能的字符分割。此外，Jaderberg 等人使用卷积神经网络 (CNN) 进行文本区域检测和字符分类。
最近受到更多关注的其他相关工作是将文本和视觉线索结合起来进行细粒度图像分类。例如，Rusinol 等人合并视觉和文本描述来对行政文件图像进行分类，而 Karaoglu 等人使用检测到的场景文本进行细粒度结构分类。
另一项相关研究侧重于在标签嘈杂的情况下进行重复标记，以及将人类工作者与机器分类器相结合。在早期研究中，Romney 等人考虑了通过考虑工作者的准确性来提高标签质量。此外，Wilber 等人研究了网格问题的使用，其中工作者从图像网格中选择答案以利用人类感知的并行性。我们也使用类似的网格界面，但我们的方法不同，因为我们执行二元分类，而他们进行相对比较，因此我们不需要特定数量的响应。
与我们的工作更接近的是，Russakovsky 等人【Best of both worlds: human-machine collaboration for object annotation】提出了一个框架，将对象检测器与人工注释者结合起来注释数据集。虽然我们也结合了对象检测器和人工注释者的结果，但我们的工作不同之处在于，我们在注释过程中无法访问检测器，而只能访问初始检测作为输入。在这个领域，与我们最接近的工作是 Veit 等人【On optimizing human-machine task assignments】的方法，他们提出了优化预算受限的人工工作者任务分配的策略。我们采用了他们的方法，只增加最困难的注释的注释冗余度。

Text Annotation

我们现在描述如何注释数据集。由于我们的目标是在合理的预算内注释 MS COCO 数据集中的所有文本，因此设计一个经济高效且高质量的注释流程至关重要。表 1 概述了我们为每个文本区域收集的注释。图 6 显示了按文本类别组织的 COCO-Text 中示例文本实例的裁剪图
- 表 1. 每个文本区域的注释
我们使用 Amazon Mechanical Turk 平台上的工作人员来完成所有众包任务。为了管理不同的 UI 和 HIT，我们使用 Matera 等人【A user friendly crowdsourcing task manager】的任务管理器。我们尽可能保持任务的原子性。例如，我们将文本检测与确定其类别分开，因为工作人员可能会轻松确定场景中没有文本，而无需查找特定文本。为了减少注释时间，我们使用丰富的 MS COCO 注释来帮助指导哪些图像需要更多关注。此外，我们从三种领先的最新照片 OCR 算法中获得了检测和转录结果。我们非常感谢合作，并利用这些结果来减少众包工作人员的工作量。为了确保注释不会偏向特定的 OCR 实现，我们确保每幅图像至少由一名人类工作人员查看和注释。注释管道分为三个部分：检测文本区域、将文本分类为细粒度类别和转录。图 4 给出了概述。
- 图 4. 该流程分为三个步骤：检测文本区域、将其分类为细粒度类别和转录。
为了确保较高的注释质量，我们采用了四种质量控制机制：首先，我们为注释者提供每组描述任务的类似人类智能任务 (HIT) 的教程，并且只有注释者成功通过两个示例后才允许他们开始工作。这确保他们理解任务。此外，我们将每个工人的图像数量限制为 150 张，以接收各种各样的答案。此外，我们使用捕捉试验，在试验中我们知道基本事实，以评估工人的质量，事后决定是否使用他们的注释。最后，我们引入了停止和继续试验，在试验中我们也知道基本事实，工人会立即得到错误答案的反馈。具体来说，如果答案错误，工人必须等待 5-10 秒，才能继续并重试。这些停止和继续试验被证明特别有效。之所以有效，是因为人类注释者面临着答案质量和投入时间之间的权衡。对低质量答案立即施加时间惩罚，会直接影响权衡，从而促使工作人员提供更高质量的答案。为了确保工作人员的满意度，关键是示例不能含糊不清，门槛要足够低，这样回答质量一般的工作人员才不会被阻止。

Text Region Detection

注释数据集的首要任务是检测每幅图像中存在的文本区域。我们用封闭的边界框注释每个文本区域。对于清晰的文本，我们的目标是每个单词一个边界框，即由空格分隔的连续字符序列；对于难以辨认的文本，我们的目标是每个连续文本区域一个边界框，例如一张纸。文本检测步骤分为四个部分：
- 结合照片 OCR 输入：首先，我们使用由我们的协作照片 OCR 方法提供的输入。具体来说，我们使用检测结果。我们将每个检测都视为人工注释者。在收集人工检测后，将在后续阶段处理误报检测。为了减少对特定方法的偏见，我们仅使用 OCR 输入，其中至少有一名人工注释者同意 OCR 输入。此步骤贡献了我们文本注释的约 20%。
- 发现任何 OCR 都未发现的文本：其次，我们要求人工工作人员注释剩余的文本区域。我们要求工作人员尽可能紧密地围绕文本区域绘制边界框。示例屏幕如图 3 (a) 所示。为了提高召回率，我们突出显示了 OCR 和工作人员在前几轮中发现的文本区域的位置。这有助于工作人员在看到图像后找到初始文本。 它还鼓励工作人员寻找尚未检测到的不太突出的文本。我们首先将每幅图像展示给人工工作人员一次。随后，我们选择最有可能包含更多文本的图像并将其展示给其他注释者。工作人员还可以使用放大镜来识别小文本区域，这对于注释难以辨认的文本特别有用。我们在收集转录后删除重复项以提高稳健性。此阶段的注释占所有区域的 80% 文本，特别是 96% 的非法文本。
- 需要更多关注的图像：在每张图像都由一名工作人员注释后，我们会选择需要工作人员额外关注的图像。我们使用四条决策规则，并首先向工作人员显示最需要关注的图像。我们会筛选出第一轮注释者发现的文本明显少于普通工作人员的图像。此外，我们选择在第一轮中发现许多文本区域的图像。复杂的自然场景包含大量文本，但工作人员很少注释所有文本。对于接下来的两个规则，我们使用图像中存在的 MS COCO 对象类别。我们选择包含经常带有文本的对象的图像，但在初始注释期间未标记任何文本。最后，我们选择包含对象的图像，这些对象往往出现在工作人员经常在后续轮次中找到注释的图像中。为了学习参数，我们选择了 1000 张具有平衡对象频率的图像，并以高冗余度对其进行注释。
- 删除误报：收集所有检测结果后，我们会删除误报。我们在文本区域周围使用裁剪网格，然后工作人员选择不包含文本的区域。图 3 (b) 显示了类似的界面。我们将每个区域提案提交给三名工作人员，并使用多数规则来决定哪些检测是错误的。
- 图 3. (a) 在文本标记 UI 中，注释者可以在文本区域周围绘制边界框。前几轮标记的文本用灰色框标记。工作人员可以使用放大类来放大小文本区域。 (b) 在文本分类 UI 中，注释者可以选择具有特定属性的文本区域。在所示的示例中，选择了清晰易读的文本。补丁显示了各个 MS COCO 图像的裁剪，框周围有 20% 的填充。 © 在转录 UI 中，注释者可以转录呈现的文本区域。 如果他们无法阅读文本，他们可以将其标记为难以辨认。

Fine-Grained Text Classification

接下来，我们根据三个属性对检测到的文本区域进行分类：首先，可读性，即清晰可辨和难以辨认的文本。可读性可以理解为文本是否可读的指标。其次，我们收集文本的脚本。我们将文本分为英文和非英文。我们首先旨在按语言分离所有文本。然而，几乎所有文本都是英文，而名称的语言（例如餐馆名称）可能非常模糊。因此，我们将所有西方脚本的文本归为英文，尽管它包含极少量的德语、法语和西班牙语文本。我们将所有剩余的文本归为非英文。第三，我们将文本类型分为机器打印、手写和其他。后者包括无法分类的边界文本以及未单独涵盖的类别。
每个属性都需要略有不同的注释方法。为了提高易读性，我们的目标是高召回率的易读文本区域，因为它们将进入后续的转录阶段。使用如图 3 (b) 所示的网格界面，工作人员选择所有易读的文本区域。我们重复此操作三次，每次都删除已选中的区域。在转录阶段将识别出难以辨认的选定文本。为了分离脚本，我们只使用标记为易读的文本，并使用三位注释者的多数票来选择非英语或数字的文本。为了将机器打印的文本与手写文本区分开来，我们首先采用三名工作人员的多数票来识别手写文本。随后，我们通过对剩余文本实例的另一次多数票来识别机器打印的文本。未识别为任一文本的文本将归类为其他。

Character Recognition

最后，我们收集转录本。收集过程分为三次，每次包含两个步骤。首先，我们收集转录本；然后，我们通过多数投票检查它们是否正确。在第一次迭代中，我们采用 OCR 提供的转录本，并要求工作人员检查其正确性。在第二次和第三次迭代中，人工注释者会转录并检查文本区域。如图 3 © 所示的界面显示了文本区域的裁剪图和整个图像以提供上下文。如果工作人员无法读取文本，他们可以将文本标记为难以辨认。在所有迭代中，我们都会呈现在之前的迭代中标记为错误转录或难以辨认的文本区域。我们保留每个阶段标记为正确的转录本，并将上次迭代中标记为难以辨认和错误转录的转录本注释为难以辨认的文本。

Annotation Performance Analysis

为了评估我们的注释管道的性能，我们收集了 1000 张图像的随机子集的地面实况注释。我们使用专家注释者（论文的合著者）准确地注释所有文本区域。我们观察到，众包注释者检测到了所有文本区域的 57%。特别是，他们检测到了 84% 的可辨认文本和 39% 的难以辨认的文本。这个结果说明了 COCO 数据集上的文本检测对于人类注释者来说是多么困难。在检测到的文本区域中，我们还分析了分类和转录性能。我们观察到机器打印和手写文本的分类准确率为 93%。对于边界文本，众包注释者倾向于其他文本，而专家注释者倾向于机器打印文本。关于文本易读性，我们观察到准确率为 87%。对于边界文本，众包注释者倾向于难以辨认的文本，而专家注释者略微倾向于清晰易读的文本。对于脚本，我们观察到准确率为 99%。对于 87.5% 的文本区域，众包转录与基本事实相同，并且 92.5% 的文本区域的编辑距离在 1 以内，其中主要包括缺失的标点符号。

Dataset Statistics

我们分析了 COCO-Text，并将其与其他流行的场景文本数据集（特别是 ICDAR 03 和 ICDAR 15 ）进行了比较。以前的相关数据集是专门为检测和识别场景文本而收集的。COCOText 基于 MSCOCO，后者旨在检测和分割在自然环境中出现的对象。这导致了 COCO-Text 与相关数据集之间的三个主要区别。首先，收集 COCO-Text 的图像时并未考虑文本。这导致文本种类更多，并且通常更自然。因此，如图 2 (e) 所示，与 [Object reading: text recognition for object recognition] 中一样，空间文本出现概率在 COCO-Text 中的分布比在相关数据集中更广。
此外，COCO-Text 是唯一一个包含没有任何文本的图像的场景文本数据集。如图 2 © 所示，50% 的图像不包含文本。值得注意的是，一半的图像包含某种形式的文本，尽管它们在收集时并未考虑文本。总体而言，平均每幅图像有 2.73 个文本实例。仅考虑带有文本的图像，平均值为 5.46。此数据集的一个重要属性是，文本实例比相关数据集中的注释属性更多。这尤其有用，因为自然图像中的文本种类繁多。图 2 (b) 概述了相关数据集包含多少文本属性。除了位置之外，传统数据集仅包含转录。ICDAR 15 还包括“不关心”区域，可以将其解释为文本可读性的概念。COCO-Text 更进一步，还注释了文本的类型，即它是机器打印的还是手写的，以及文本的脚本。
每个类别的实例数如图 2 (a) 所示。总体而言，60.3% 的文本清晰可辨，39.7% 难以辨认。大多数文本是机器打印的，占 86.4%。只有 4.6% 的文本是手写的，9% 是边缘文本或来自其他未捕获的类别。COCO-Text 的另一个关键方面是其上下文信息。它是 MSCOCO 更大上下文的一部分，因此能够在场景文本和对象之间进行上下文推理。这很重要，因为上下文对许多应用程序来说都具有很高的信息量。图 5 显示了 MSCOCO 对象类别与场景文本共现的频率。可以看出，某些对象的存在对于文本存在非常具有信息量。最后，COCO-Text 的规模比相关数据集更大。它包含 63,686 张图像和 173.589 条文本注释，比最新的 ICDAR 15 大 14 倍多。图 2 (b) 提供了概览。
- 图 5. MS COCO 中的对象与文本同时出现的频率。可以看出，某些对象的存在对于文本的存在非常有指导意义。特别是交通和体育场景几乎总是包含文本，而有动物的自然场景很少包含文本。

Algorithmic Analysis

在本节中，我们将评估我们数据集上照片 OCR 的当前最新技术。使用各种各样的文本和注释，我们感兴趣的是确定性能特别强的领域和存在重大缺陷的领域，以激发未来的工作。
评估程序：我们遵循 ICDAR 稳健阅读竞赛中使用的文本检测和识别评估方案，用于端到端识别偶然场景文本。场景文本检测的评估使用单个交并比 (IoU) 标准，阈值为 50%，类似于对象检测 。如果多个检测边界框满足地面实况框的阈值，则将最佳匹配确定为具有正确文本识别的匹配，否则将具有最高 IoU 分数的匹配。文本用每个单词一个边界框进行注释，即由空格分隔的不间断字符序列。对于端到端结果，我们仅当单词匹配时才认为检测正确匹配。识别和端到端性能仅在清晰的机器打印和英文手写文本上进行评估。
评估结果：在我们的实验中，我们采用了来自 Google、TextSpotter 和 VGG 的合作伙伴的三种最先进的照片 OCR 算法，并在我们的数据集上评估它们的检测、转录和端到端文本识别结果。由于这不是一场比赛，因此它们在表 2 中被匿名化，表 2 显示了评估结果。从积极的一面来看，方法 A 和 B 具有良好的检测精度，分别为 83.78% 和 89.73%。此外，我们观察到良好的识别准确率。特别是方法 A 达到了 82.91%。然而，整体而言，检测性能非常弱。虽然方法 A 可以找到大量清晰的机器打印文本，准确率为 34.01%，但没有一种方法表现令人满意。在清晰的手写文本上观察到的结果甚至更低。这些在 COCO-Text 中对自然图像的不令人满意的检测结果激励着未来的工作。最后，没有任何方法具有可行的功能来查找难以辨认的文本。值得注意的是，目前的照片 OCR 算法无法检测或转录难以辨认的文本。因此，需要新的方法来填补这一研究空白。请注意，这些方法用于我们的注释中，尽管我们确保人工注释者的冗余度，但结果并不是基准。
- 表 2. COCO-Text 上最先进的照片 OCR 检测、转录和端到端结果。结果基于包含 20,000 张图像的验证集并以百分比显示。检测针对所有类型的文本进行评估，并细分为子类别。文本识别和端到端性能仅在清晰的机器打印和手写英文文本上进行评估。（使用评估 API v.1.3【GitHub - andreasveit/coco-text: COCO-Text API http://vision.cornell.edu/se3/coco-text/】计算的结果）

Dataset Split

数据集分为训练集和验证集，分别包含 43686 张和 20000 张图像。要报告端到端文本识别结果，仅应考虑清晰的机器打印和手写文本。我们鼓励研究人员在训练集上进行训练和调整参数，但尽量减少在评估集上的运行次数。

Discussion

我们引入了 COCO-Text【COCO-Text: Dataset for Text Detection and Recognition | SE(3) Computer Vision Group at Cornell Tech】，这是一个用于检测和识别自然图像中文本的新数据集，以支持日常生活环境中文本识别的进步。我们花费了超过 1500 个工时，注释了大量涵盖多种文本类型的文本实例。这是第一个用于自然图像中文本的大规模数据集，也是第一个使用可读性和文本类型等属性注释场景文本的数据集。数据集统计数据表明，图像包含各种各样的文本，并且文本的空间分布比相关数据集更广泛。我们进一步评估了我们数据集上最先进的照片 OCR 算法。虽然结果表明精度令人满意，但我们发现了重大缺陷，尤其是在检测召回率方面。这激励了未来研究能够检测更多种类文本的算法。我们相信这个数据集将成为支持这项工作的宝贵资源。