【读点论文】Text detection and localization in scene images: a broad review

最新推荐文章于 2024-08-31 08:01:24 发布

羞儿

最新推荐文章于 2024-08-31 08:01:24 发布

阅读量1k

点赞数 29

分类专栏：论文笔记文章标签：深度学习 ocr 论文综述

本文链接：https://blog.csdn.net/weixin_43424450/article/details/141673719

版权

论文笔记专栏收录该内容

158 篇文章 33 订阅

订阅专栏

Text detection and localization in scene images: a broad review

Abstract

如今，文本检测和定位在文本分析系统领域已广受欢迎，因为它们为大量实时应用铺平了道路，例如移动音译技术、视障人士辅助方法等。文本检测和定位技术用于查找图像中文本区域的位置。本文打算从五个方面对该领域进行广泛的回顾：（1）文档图像与场景图像的比较以及自然场景图像的应用，（2）用于不同语言文本检测和定位的重要且最新的传统机器学习和基于深度学习的方法，（3）各种公开可用的基准数据集，（4）其他基准数据集的比较分析，以及（5）该领域的相关挑战和未来范围。本文总结了该领域的一些潜在方法，可以为研究人员未来探索该领域提供有用的参考。
Text detection and localization in scene images: a broad review | Artificial Intelligence Review (springer.com)

Introduction

相机正成为一种简单、高效、流行且功能强大的图像捕捉引擎，可以安装在移动相机、头戴式设备、平板电脑、手表、笔和个人数字助理 (PDA) 等设备上。Rajan 和 Raj 。随着自动化移动设备的日益普及和图像的大量扩展，基于内容的图像检索和分析正成为许多学者和研究人员关注的重要领域。它正在成为基于计算机视觉的实时应用（如阅读辅助、辅助技术、基于上下文的图像检索或地理编码等）的重要组成部分。移动设备能够将一种文本翻译成另一种语言，这为解决此类问题指明了方向。
在图像中的所有对象中，文本因其对人类和计算机系统都很容易理解而备受关注。文本信息在每个人的生活中都起着至关重要的作用，因为它提供了有关周围环境的丰富、精确的高级直接信息。文本为自然图像中的对象提供了意义。几个世纪以来，文本一直被用作表示和交换信息的有效工具。图 1 展示了一些文本图像。
- 图 1 从不同来源捕获的不同类型的文本图像，如手写和印刷文本
在旅游区，使用文字可以帮助游客了解周围环境。如图 2 所示，文本结构有多种形式。文本的形成可以是印刷的，也可以是手写的，如图 1 所示，其中第一行包含手写文本，其他行是印刷文本。根据脚本识别，文本可以分为印度脚本或非印度脚本（可以考虑任何其他区域）。文本性质或生成可以分为场景文本或图形文本，以及标题文本或叠加文本。场景文本是通过摄像机获取的类型，提供有关周围环境的信息，例如招牌、围墙、广告、地址/铭牌。叠加或标题文本是人为强加到图像上的内容。这些文本内容可以嵌入为街道、建筑物、城市、公司的名称，也可以提供有关指定、通知等的重要信息。或者可以用于公共便利设施，如公告、广告等，或者可以象征一些交通警告或限制等。文本可以在局部级别或全局级别上进行分割。通常，文档图像中的文本在全局级别上进行分割，而在自然场景图像中，文本在局部级别上进行分割。
- 图2 文本结构描述
本身包含文本的图像，即文本图像，可以归类为自然场景或文档图像。然而，自然图像本身可能包含文本，传递一些重要信息，例如商店招牌或交通标志，对于不熟悉该语言的人来说，有时可能难以理解。
因此，随着相机的普及和所捕获图像数量的不断增长，从这些自然图像中提取文本以促进各种应用变得至关重要。文本定位由于其在不同领域的多种应用，在研究人员和学者的心中也获得了向上的发展方向。文本检测是检测和定位图像中文本的过程。在受控环境中，由于方向不同、背景杂乱、字体和照明不均匀等各种问题，文本检测成为一项具有挑战性的任务。它考虑了更多的假设，这也扩大了搜索空间。

How natural images are different from document images?

自然场景图像包含强大的信息，可描述图像的物体和周围环境。包含文本的文档图像包括报纸、书籍、笔记本、杂志、在线文本等。Mahajan 和 Rani 而包含文本的自然图像可以在围板、广告、标牌、布告栏等上找到。图 3 给出了一些手写和印刷形式的文档图像和自然图像的示例。
- 图 3 a–c 为印刷文档图像示例，d–f 为手写图像示例，g–k 为从不同场景中捕获的自然场景图像示例
由于字体和字号的特殊性，文档图像文本很容易被提取出来，而场景文本则容易被提取出来。当图像是由扫描仪捕获的，即文档图像时，文本信息提取是一项很容易的任务，但是由于背景杂乱或者存在一些类似于文本的物体以及干扰因素，在自然图像中区分文本和非文本部分变得很困难。
由于文档或手写图像中存在各种文本特征，因此从文档或手写图像中检测文本相对容易。在印度等多语言地区，文档图像的表现非常出色。与自然图像相比，文档图像面临的挑战较少。由于各种几何和非几何原因，从自然场景图像中检测和定位文本更加困难。表 1 总结了文档和自然场景图像的比较。接下来，我们将讨论自然场景文本检测和定位的一些实时应用。

Scope and applications

本节将介绍文本检测和定位在不同领域的一些应用，从小规模应用到辅助技术。这些讨论如下：
- 移动音译/翻译技术：此类技术有助于将一种书写系统映射到具有相似语音的另一种书写系统，或有助于将一种文字翻译成另一种文字。此类功能已融入各种应用程序，包括 WhatsApp 等。对于这样的系统，必须事先知道文本的文字。
- 视障人士的辅助技术：如今，成像工具已成为一种时尚，以手机和其他便携式设备的形式出现。这些小工具可以配备技术，作为视障人士、盲人或任何不熟悉当地文字的游客的助手。根据世界卫生组织的数据，大约有 3900 万人是法定盲人，其中约 20 万人仅在日本就失明，而世界上有 2.85 亿人口是视障人士。这样的人捕捉到的复杂场景可以为他们提供重要信息。提取的文本可以帮助他们实现自动化，例如文本到语音合成器、读取产品标签【Text detection in stores using a repetition prior】、【Portable camera-based assistive text and product label reading from hand-held objects for blind persons】、道路标志和警告阅读。
- 场景理解：场景理解是机器像人类一样看待事物的能力。这类应用可能有助于机器人导航。它使设备能够完全了解场景。为了理解场景，文本提供了很大的帮助。
- 地址识别（门牌号/街道名称/公司名称/铭牌等）：门牌号可用于识别房屋号码。门牌号可能以不同的字体大小、样式和复杂的背景书写。基于文本信息提取的应用程序可能有助于检测和定位图像中的文本区域。
通常，街道名称或地址的书写方式是为了让人们熟悉这个地方。识别这个地方对每个人来说都是必不可少的。通常，街道名称写在纯色背景上，字体大小独特。但是当相机捕捉到这些时，由于相机的噪音，检测文本变得很复杂。图 4 中展示了此类图像的示例。
- 图 4 地址牌图像样本
图像和视频文本检索图像和视频上的文本传达某种有用的信息。这些信息可以注释为多媒体数据件。这些注释信息可用于各种检索系统。注释文本还描述了它们所捕获的图像和视频。这种检索数据的应用可用于大数据公司，这些公司需要从图像中检索大量数据以进行数据挖掘和分析。
交通管理（指示牌/交通符号）为了管理交通，路边会显示各种符号牌和警告。这些警告和标志包含一些文字，向驾驶员和人们传达一些有用的信息。这些警告和文字符号被检测到并用于指导人们减少道路事故的发生。图 5 中的以下图像表示从环境中捕获的一些指示牌、交通符号等。
- 图5 用于交通管理的场景图像
商业目的（公告/广告） : 公告是传达某种信息的最佳方式。有时这些公告是通过海报来传达的。这些海报以不同大小的文本形式包含信息。广告是通过非个人信息来推广或销售产品的营销方法。这些广告的制作方式可以吸引观众的注意力。图 6 给出了此类图像的常见示例。
- 图 6 广告和商业用途的自然图像样本
公告板公告板是向公众用户传递通知的一般方式。公告板通常是一种专业的交流方式。它通常包含相同字体大小的文本。图 7 显示了一些通过公告板传达信息的自然图像。
- 图 7 用于向观众传达警告或通知的图像
围板围板是临时的大型板，用于展示一些重要信息。这些通常用于表达广告。围板包含各种对象，例如产品/卖家信息、嵌入其中的图像和文本。由于效果不同，文本通常难以检测和定位。图 8 给出了一些围板图像。
- 图 8 从环境中捕获的囤积样本
自动化和增强在工业中，增强现实用于使用头戴式设备读取手册和说明中的文本，该设备可以捕获文本并对其进行识别。这可以通过自动切换指令面板来帮助节省人员的时间。提取系统可以帮助读取产品名称并将其流水线化以用于工业中的相应操作。在收费站可以看到其他自动化应用，其中车辆号牌由使用摄像头的设备自动读取。

End to end text analysis system architecture for natural scene images

到这一部分为止，我们已经知道文本分析系统会从图像中提取文本部分，而不考虑其背景。此过程用于从图像中找到 RoI 的空间位置。文本分析系统方法是许多子阶段的组合，包括图像预处理、检测或定位、文本部分的分割或提取、脚本识别和识别。图 9a 表示文本分析系统使用的主要过程，而图 9b 则用示例图像描绘了如何从图像中执行分析中每个部分的流程。
- 图 9 自然场景图像中的端到端场景文本识别系统，a 表示自然场景图像文本分析系统的一般现象，b 表示使用自然场景图像进行分析系统的每个步骤
当从自然环境中收集图像时，图像预处理是处理的重要步骤。移动设备或摄像头安装设备中包含的此类图像可能会受到各种伪影的影响。这些挑战将在本文的后续部分讨论。尽管文献表明这些不连续性无法克服。但仍然可以使用各种图像处理技术来减少这种影响。 提到此步骤是为了去除杂质并增强图像。因此，在将图像输入到后续阶段之前对其进行预处理至关重要。
文本检测和定位方法用于验证和查找文本的位置。这是识别文本脚本的先决条件。在文本检测中，分别为水平和定向文本绘制具有更高长宽比的矩形和定向边界框，以指定文本的空间位置。现实世界场景图像中的文本不一定总是水平的；它可能包含具有不同字体的多方向文本以吸引观看者的注意力。将这些基于水平文本的检测方案应用于非水平文本可能会导致低效的结果。因此，即使在非水平条件下也可以检测和定位文本的方法也是必不可少的。现有的文本检测方法，包括笔划宽度变换 (SWT)、最大稳定极值区域 (MSER) 或滑动窗口方法，可能无法正确利用文本特征。因此，需要一些能够基于文本参数定位和检测文本的方法。
文本提取是从图像中分割出文本部分的过程。这是文本分析中非常关键的一步。从这些自然图像中提取文本变得非常重要，因为它用于各种辅助技术。为了方便提取文本，文本检测和定位起着重要作用。为了更好地识别脚本，这些分割方案在不同级别实现。文本可以在全局级别或局部细粒度级别进行分割。文本的全局分割是在段落或文本块级别进行的分割，其中基于整个段落或完整文本块的特征被用于识别，而局部分割是在行、单词或字符级别进行的，其中分析单词或字符的局部特征。由于字符集各异，很难为所有文字设计一种通用的分割方法。文本的分割可能依赖于文字。
根据文本类型，文本提取分为两类，即图形文本提取和场景文本提取。已经探索了从二进制、网络或彩色图像中提取图形文本的各种技术，并且在彩色图像以外的图像上取得了良好的性能。而场景文本提取是一项艰巨的任务，因为存在各种挑战，如背景、字体、非均匀照明等。提取和分割可以针对字符级、单词级和行级。分割越准确，识别率就越高。
当图像是多文字或多语言时，文字识别是成像系统分析中的一个重要阶段。文字识别可以看作是一个纹理分类问题。通过分析检测到的文本段落或文本块的全局特征，可以找到文档和手写图像中的文字。但是，对于自然图像，文本作为整个段落的存在是有限的，而且很少见。因此，可以在行、单词或字符 (LWC) 级别分析自然图像中的识别。文字识别可以使不同的实时应用受益，例如存档多语言图像；搜索在线档案（特定于文字的）图像和选择特定于文字的光学字符阅读器 (OCR)
OCR 与语言无关，因此在开发 OCR 之前识别脚本或语言非常重要。脚本识别被认为是开发 OCR 的必要步骤。在一个将多语言融入到各个交流领域的国家，识别脚本以利于多种应用成为使用 OCR 之前必须了解的必要条件。不同的作者致力于从截断的单词中识别脚本，这几乎没有什么挑战；从自然图像中端到端识别脚本仍然是印度和非印度脚本研究的开放领域。
文本识别的探索范围不仅仅限于文档，还包括自然场景图像。文本信息提取系统的这一步骤在整个过程中都很重要。所有前期阶段都有助于提高识别的准确性。以前，这一过程仅限于文档和手写图像以识别历史文档，但随着移动设备和技术的进步，它也成为自然图像的热门领域。机器学习和基于深度学习的技术都在这一领域取得了更好的成果。相比之下，基于深度学习的模型在英语和其他脚本的文本识别方面已证明有显著的改进。
已经对文档和手写图像中的非印度语言的文本识别进行了研究，但印度和其他未开发的语言的文本检测和定位仍然存在广泛的问题。我们的研究重点是以流水线方式进行文本检测和定位

Motivation and contributions

虽然，在深度学习这一突出领域出现之前，已经有许多有效的评论文章介绍了所使用的文本检测和定位方案。此外，现有的文本检测和定位工作主要侧重于文档图像。因此，需要时间来介绍一篇调查文章，提供该领域所有最新方法和技术的深入细节。从图像分析的基本分类开始，本文将详细介绍文档和自然场景图像之间的比较分析，以及基于传统机器学习和最近论文中基于深度学习的方案的基本文本分析系统架构、文本检测和定位方案，然后将进一步介绍性能矩阵和分析。此外，本文还提供了不同语言现有基准数据集的详细描述。总之，这篇调查论文旨在做出以下贡献：
- 我们给出了文档图像和自然场景图像的比较分析、自然场景文本检测和定位的各种范围和应用以及自然场景图像的端到端文本分析架构。
- 我们介绍并将现有的文本检测和定位工作分为传统机器学习和最近的深度学习方法，以及它们的优缺点。
- 我们列出了各种最新的基准数据集，可供公众用于具有不同参数的文本检测和定位。
- 我们提供了用于文本检测和定位的各种性能矩阵以及不同最新技术在不同基准数据集上的性能分析
- 我们重点介绍了在不同场景中从自然场景图像中进行文本检测和定位时遇到的一些主要挑战。
本文的其余部分安排如下：第 2 节介绍了传统机器和基于深度学习的检测技术的相关和比较研究。第 3 节提供了各种公开可用的基准数据集的详细信息。第 4 节解释了用于文本检测和定位的不同性能矩阵以及用于评估不同数据集的工具和技术的比较分析。第 5 节报告了文本检测领域的各种挑战，第 6 节和第 7 节分别强调了本文的一些未来方向和结论。

Text detection and localization

如前几节所述，检测和定位是提取系统的重要阶段。在本节中，我们将讨论传统和最新方法以及不同作者报告的检测和定位领域的相关研究。这些方法的分类如图 10 所示。
- 图 10 文本检测与定位方案
在探索该领域的相关研究时，我们发现许多作者将这些检测技术分为不同的类别，即基于纹理的方法、基于连通分量的方法、基于滑动窗口的方法和混合方法。在本文中，我们将这些检测和定位方法分为两大类，即传统方案和基于深度学习的方案。这两种方法将在后续章节中讨论和描述。

Traditional text detection schemes

传统方案是手动提取和选择特征的方案，然后使用分类器从图像中检测真假情况。传统方法是基于机器学习的技术的另一个术语。表 2 解释了一些使用机器学习方法的现有工作。这些方法进一步分为不同的类别，如图 10 所示。此类型下的所有后续方法都有其优缺点，具体取决于图像类型。表 3 总结了基于机器学习的方案及其优缺点的简要介绍。

Stroke Based methods

基于笔画的方法使用笔画作为区分文本与其他元素的特征。笔画可以被视为文本的内部特征，因此可以用于自然图像和手写图像。这些方法对文本大小、方向、文本颜色、字体大小和脚本不敏感。这些方法需要清晰的文本笔画以将其与背景区分开来。图 11 和 12 分别解释了和提出的使用字符笔画属性的基于笔画的方法。
- 图 11 Srivastav 和 Kumar (Text detection in scene images using stroke width and nearest-neighbor constraints) 使用基于笔画的方法进行文本检测
- 图 12 Jiang 等人（An Improved Text Localization Method for Natural Scene Images）提出的基于笔画的文本检测架构

Region based methods

这些方法使用颜色特征将文本与背景区分开来。在此方法中，预训练分类器检测子窗口是否包含文本信息。在文献中，基于区域的方法也用于基于滑动窗口的方法。基于区域的方法分为基于梯度边缘的方法（使用边缘和梯度信息检测文本）和基于连通分量的方法（使用强度和颜色信息进行检测）。此类方案易于实现，能够从噪声图像中检测水平文本和文本。当背景杂乱或与文本相似且对方向敏感时，这些方法效果不佳。图 13 描述了使用基于区域的特性来检测和定位文本的方法。
- 图 13 基于区域的文本检测和定位方法
基于梯度边缘的方法，在此方法中，边缘信息从图像中检测文本区域。这些方法基于文本和背景的高对比度信息。边缘检测器（Canny 边缘检测器等）与用于提取文本的各种形态学操作组合在一起。这些方法被证明对于文本提取是高效且简单的，并且在存在强边缘的情况下效果很好。由于砖块、树木、窗户等与文本相似的物体，这些方法可能会对图像产生大量误报。
Smith 和 Kanade 提出了一种方法，将 3 X 3 水平差分滤波器应用于图像并执行阈值处理以获取垂直边缘。平滑操作用于过滤微小边缘。通过连接相邻边缘来计算边界框。每个边界框上使用一些特征来删除非文本区域。该方法仅限于视频帧。
Datong Chen 和 Bourlard 提出了一种基于 Canny 边缘算子的边缘检测方法。使用尺度信息来增强文本边缘。然后使用形态膨胀连接边缘。使用启发式信息从图像中消除非文本区域。作者考虑了 4000 帧来进行方法评估。该方法可以进一步扩展到自然图像。
基于连通分量（CC）的方法这些方法使用字符的独特特征来提取候选区域。基于连通分量的方法是自下而上的方法。这些方法提取字符候选并将其组合成文本单词或文本行。这些方法包括从真实图像中提取连通分量、分析连通分量以分离非文本连通分量，以及进一步组合连通分量以形成文本分量。将图像分割成更小的连通分量，并验证分割后的连通分量是否包含文本。需要进一步进行几何解剖以识别和组合文本区域。使用边缘检测或颜色聚类策略从图像中分割候选文本区域。
SWT（使用笔画宽度特征）和 MSER（提取具有相似强度的区域）是此类别下的主要方法。SWT 的性能取决于边缘检测，而 MSER 根据图像中的照明和噪声做出响应。这些方法需要较少的计算成本，并且可直接使用识别的区域进行识别。需要有关文本位置和比例的先验信息。这些方法最大限度地减少了检测到的字符候选区域的数量。与滑动窗口技术相比，CC 技术高效、缩放稳健，并且还可有效在像素级别分割文本 。当字符形状得到保留、图像背景良好且环境为多语言时，基于 CC 的方案会更好。有时，由于背景的退化和噪声，CC 的提取会变得复杂。由于许多对象看起来与文本相似，因此文本成分的过滤可能很复杂。有时它还会避免一些真阳性。这些基于 CC 的方法总结在表 4 中。
Sain 等人 (Multi-oriented text detection and verification in video frames and scene images) 提出了一种稳健的方法来从自然场景图像和视频中的水平、多方向以及弯曲文本中检测文本。作者首先对输入图像使用傅里叶拉普拉斯算子，然后对其应用拉普拉斯高斯滤波器。使用 K 均值聚类来获取文本区域。执行形态学运算以获取边缘，并将这些边缘连接起来形成文本字符串。作者使用了 IITR 文本检测数据集并使用 HMM 方法分别获得了水平、非线性水平和弯曲文本的 0.85、0.82 和 0.77 f 度量。可以改进该方法以从弯曲文本中检测部分文本。所提出的方法如图 14 所示。
- 图 14 Sain 等人提出的基于连通分量分析的文本检测与定位。
Bhattacharya 等人提出了一种从图像中提取梵文和孟加拉文的方法。作者提出了一种预处理技术和一种文本提取算法。对于预处理，对输入图像进行下采样，然后使用自适应阈值和 Otsu 方法将其转换为灰度。使用各种形态学操作，使用结构元素来获取水平线。在这些线条中，选择标题，并使用该标题分割字符。作者使用两个不同的特色相机从研究所、火车站等不同地方收集了 100 张图像，并在其上实现了 0.70 的 f 测量值。该方法适用于略微弯曲的文本，但当文本尺寸不够大时会失败。
Raj 和 Ghosh 提出了一种从自然场景图像中提取包含梵文文本的文本的技术。对图像进行下采样以使其尺寸相等，并使用自适应阈值将其转换为灰度。然后使用连通分量分析获得 CC。执行各种形态和数学活动以获得单词的真实标题。该方法针对 100 张摄像机拍摄的图像进行了说明，并在图像上实现了 0.725 f 测量。该方法对于水平文本表现良好，但对于倾斜或弯曲的文本则受到限制。
Wu 等人 (Natural scene text detection by multi-scale adaptive color clustering and non-text filtering) 提出了一种文本检测方案，该方案分为两个阶段，即 CC 提取阶段和非文本区域过滤阶段。对于 CC 的提取，使用了多尺度自适应颜色聚类方法。对于非文本过滤，使用 TCD 和梯度直方图 (HOG) 特征在字符和文本行级别验证文本候选。精炼和未精炼的 CC 组合在一起形成文本行。在两个公开可用的基准数据集（即 ICDAR 2013 和 ICDAR 2011）上验证了结果，分别获得了 0.76 和 0.75 的 f 测量值。当背景和前景之间的颜色差异非常小时，该方法无法检测文本，如果仅存在单个字符，则丢弃。该方法可以进一步扩展到具有多方向的其他语言的文本检测。
Mittal 等人[Rotation and script independent text detection from video frames using sub pixel mapping] 提出了一种从风景图像和视频帧中检测或定位文本的方法。基于连通分量的方法用于提取特征。进行边缘增强以增强图像，并执行形态学操作以缩小间隙。遵循轮廓层次结构以从图像中过滤较大的非文本区域，并且 SWT 区分文本和非文本区域。用于文本区域放大和子像素映射的超分辨率方法用于增强由于图像放大而造成的信息损失。结合 SVM 分类器将图像中的文本区域与非文本区域分离。HOM 特征向量用于处理文本的方向、旋转、缩放和字体大小。循环神经网络用于文本识别。该方法在图 15 中进行了说明。该方法在 ICDAR 2013 和 IITR 数据集上进行了评估，分别获得了 0.82 和 0.80 的 f 测量值。该系统可以进行扩展以获得更好的速度，并且该方法可以应用于其他文字的识别。
- 图 15 Mittal 等人提出的图像文本检测与识别方法
Wang 等人 (CRF based text detection for natural scene images using convolutional neural network and context information) 提出了一种从场景图像中检测文本的方法。MSER 用于从复杂背景图像中检测候选文本区域。此外，基于 CRF 的模型已用于区分图像的文本和非文本区域。文本的上下文信息用于恢复已实现的 MSER 的缺失文本。然后使用层次聚类提取一行中分组的字符。然后使用 Canny 边缘检测器将分组的行分成单词。使用二进制和灰度图像删除假阳性文本以改进系统。随机森林形状特定分类器因其鲁棒性和速度而用于获得安全文本区域。ICDAR 2005、ICDAR 2011、ICDAR2013 和 SVT 数据集用于性能评估，在这些数据集上分别实现了 0.75、0.77、0.76 和 0.41 的 f 度量。可以通过结合倾斜文本检测来改进模型。
Baek 等人提出了一种基于深度学习的角色组件方法，该方法侧重于在场景图像中定位每个角色。该方法既可用于合成图像的角色级标记，也可用于角色级的真实图像基本事实。该方法还经过训练以估计角色之间的亲和力。使用不同的基准数据集（如 ICDAR 2013、ICDAR 2015、ICDAR 2017、MSRA-TD500、TotalText 和 CTW1500）进行评估，分别获得了 95.2、86.9、73.9、82.9、83.6 和 83.6 f 测量值。
Zhang 等人提出了一种基于图卷积网络 (GCN) 的网络，使模型可以端到端训练。文本的每个实例被分成一系列的多个小矩形组件。该模型估计每个小组件的高度、宽度和方向。GCN 负责小组件之间的链接。该网络在 TotalText、CTW1500、MSRA-TD500、ICDAR 2015 和 ICDAR 2017(MLT) 上进行了评估，作者分别获得了 85.73、84.45、85.08、86.56 和 67.31 f 测量值。

Sliding window‑based methods

这些方法使用滑动窗口的比例和尺度变化来查找复杂图像中的文本区域。即使背景复杂或对比度低，这些方法也可以检测文本 [Natural scene text detection by multi-scale adaptive color clustering and non-text filtering]。基于滑动窗口的方法的优点是可以轻松提取候选区域。由于不同文本大小的搜索空间很大，因此这些方法非常慢 。这些方法计算成本高，并且仅限于提取像素级文本组件。图 16 显示了基于滑动窗口的文本检测和定位方法中使用的通用方法。
- 图 16 基于滑动窗口的文本检测和定位的通用架构

Texture based methods

为了克服基于噪声背景的检测方案，纹理方法被发现是有效的。这些方法指定文本和背景特征相对不同。基于纹理的方法使用不同的纹理属性，如强度、波长等。常用的方法包括高斯滤波、小波分解、傅里叶变换、离散余弦变换 (DCT)、空间方差、局部二值模式 (LBP) 和 Gabor 滤波器 。对于特定区域，提取文本特征，并使用分类器检测文本。基于纹理的方法可以分为基于单元的纹理方法和基于块的纹理方法。这些方法即使在嘈杂的背景下也可以识别文本。这些方法计算量大且速度慢，因为纹理特征各异，并且对方向、大小和脚本敏感。表 5 总结了一些现有的基于纹理的方法。
Kim 等人提出了一种使用图像像素强度将像素分类为文本和非文本的方法。使用经过训练的 SVM 分析中心像素。使用 CAMSHIFT 生成文本字符串。作者使用了他们自己的 400 张由网络图像、视频帧和扫描文档组成的图像，并实现了 0.715 的错误检测率。当文本大小很小且图像对比度低时，该方法会失败。作者使用的基本技术如图 17 所示。
- 图 17 Kim 等人提出的基于纹理的文本检测和定位架构
Chen 和 Yuille 提出了一种文本检测方法，该方法通过一组特征训练一个弱分类器，另一个强分类器通过获得的输出和 Adaboost 分类器进行训练。标准 Adaboost 的数学表达式如公式 1 所示，其中 HAda 表示标准 Adaboost 分类器，(I) 表示通过连接一组 T 个“弱分类器”ht (I) 和一组权重（即 αt）来学习强分类器。该方法使用了一些昂贵的特征。作者使用了 162 张自己的图像进行训练，并使用 117 张图像进行测试。检测的总体成功率为 0.90。
- $H_{Ada}(I) = sign( ∑^T _{t=1} α_th_t(I) )$
Ji 等人提出了一种针对低分辨率和不同背景图像的文本检测方法。首先从最大频率金字塔 Haar 小波中提取局部 Haar 二元模式 (LHBP) 和具有限制阈值的二元模式。进行了方向相关分析以过滤不需要的 LHBP 模式。使用 SVM 进行文本/非文本细化。该方法在 ICDAR 2003 数据集上进行了评估，并在其上获得了 0.68 f 度量。它只能从图像中检测水平文本。
Sahoo 等人提出了一种基于细胞自动机的文本提取技术。为了检测图像中的边缘，使用了边缘强度、密度和方向。使用 Sobel 算子进行边缘检测。该方法应用于相机捕获的三幅图像，并在其上实现了 0.92 f 测量值。该方法可以进一步增强以消除噪声以提高质量。

Hybrid schemes

它结合了纹理方案和基于连通分量的方案的有益特性。这些方案对于定位水平或近乎水平的文本非常有用。这些方法可以与滑动窗口技术结合使用，然后结合一些基于 CC 的技术来过滤非文本区域。这些方法旨在提高鲁棒性，降低计算成本。这些方法需要更多时间，并且仅限于从图像中检测多方向文本。
Pan 等提出了一种文本检测器来形成文本置信度图，这有助于使用局部二值化方法分离文本片段。CRF 与组件的一元和二元关系相结合，将文本与非文本分割开来。在 ICDAR 2003 上进行了实验，获得了 0.83 的 f 度量。
Pan 等人提出了一种从自然场景图像中检测和定位文本的方法。检测采用混合方案，结合了基于区域和基于连通分量的方法的特征。提出了一种区域检测器，并使用了 Waldboost 分类器。选择 NiBlacks 的局部二值化进行分割。条件随机森林 (CRF) 用于对文本和非文本块进行分类。最小生成树 (MST) 用于对文本进行分组。在基准数据集 ICDAR 2005 上对实验进行了评估，并在其上实现了 0.925 f 度量。该方法已在图 18 中进行了解释。
- 图 18 Pan 等人（A hybrid approach to detect and localize texts in natural scene images）提出的文本检测与定位混合方法
Petter 等人提出了一种使用 CC 和纹理方法从图像中检测文本的方法。与早期开发的方法相比，该技术为每个单词生成单个 CC。使用基于边缘信息的 RoI 生成。该技术在 400 张 TranslatAR 图像上进行了演示，f 测量值为 0.76。
Huang 等人提出了一种基于 CC 和滑动窗口的混合方法。 MSER 用于从图像中提取 CC，CNN 用于区分文本和非文本成分。作者使用了特定区域为文本或非文本的观察概率。观察为文本或非文本的概率 P(O) 用数学方程表示，如公式 2 和公式 3 所示。对于文本候选 T，O(m,n;p) 表示在 T 中存在 m 个字符候选的观察结果，n 表示被准确率为 p 的分类器分类为非字符的候选。实验是在 ICDAR 2011 上进行的，并在其上获得了 0.78 的 f 度量。
- $P(O(m, n;p)|text) =p^{m-n}(1 − p) ^n\\ P(O(m, n;p)|non − text) =(1 − p) ^{m-n}(p) ^n$

Deep Learning based text detection schemes

随着技术的进步，深度学习得到了广泛的关注和研究。深度学习方法使用了人工神经网络的概念。ANN 相对于其他方法的主要优势在于，它能够稳健地应对转换和其他挑战。此类方法也有助于从复杂图像中读取文本。表 6 总结了基于深度学习的方法。这些方法分为两类，即区域提议方法和基于分割的方法。基于深度学习的方案非常快速和准确。这些方案需要大量的训练数据。当与基于 GPU 的系统一起使用时，这些方案速度很快。下面讨论了基于深度学习的方法的后续类别：

Region proposal methods

这些方法结合了基于区域的方法和深度神经网络的优势。基于区域提议网络的方法可以稳健地学习组件，并利用 CNN 轻松检测和分类对象。例如 Faster R-CNN、Fast R-CNN 、R-CNN 。
Faster-RCNN 是一种基于区域提议的方法。它为文本生成准确而高效的检测器。RPN 负责为网络生成高质量的区域提议。学习区域提议的图像损失函数如公式 4 所示。这里，i 是小批量的锚点索引，pi 是预测锚点 i 为对象的概率， $p^∗_i$ 是 GT 标签。如果锚点为正，则等于 1，如果锚点为负，则等于 0，ti 是预测边界框的坐标，t_i 是正锚点的 GT 框。Lcls 和 Lreg 是分类和回归损失，而 Ncls 和 Nreg 是归一化损失和回归，λ 是平衡权重。与其他方法相比，该模型获得了良好的性能。
- $L(\{pi \}, \{ti \}) = \frac1 {N_{cls}} ∑ _i L_{cls}(p_i , p^∗ _i ) + \lambda\frac 1 {N_{reg}} ∑ _i p^∗_i L_{reg}(t_i , t_i^ ∗)$
单次文本检测器 (SSD) 是一种基于全卷积网络的机制，用于从自然图像中检测文本。它使用注意机制来检测文本。它可以检测具有多方向和尺度变化的文本。Jaderberg 等人提出了一种基于卷积神经网络的文本检测和识别方法。作者提出了使用 RCNN 生成的单词边界框提议以及使用基于边缘的提议和聚合通道特征检测器生成的边界框。为了减少边界框的数量，进行了基于随机森林分类器的过滤。进一步应用回归以使用更准确的边界框。基于滑动窗口的单词识别方法用于从图像中识别单词。模型架构如图 19 所示。合成数据集和其他数据集（即 Synth Dataset、SVT、ICDAR 2013、ICDAR 2011 和 ICDAR 2003）用于实验评估，分别实现了 0.57、0.77、0.77 和 0.79 的 f 度量。该模型在识别已知单词方面表现最佳，但无法识别未知单词。可以改进对除英语之外的其他文字的检测工作。
- 图19 Jaderberg等人提出的基于区域提议的文本检测和提取模型
Ma 等人发表了一篇文章，重点研究了自然场景图像中任意方向文本的检测。已经探索了用于水平文本的典型检测方法，但检测方向文本仍然是一个悬而未决的挑战。本文提出了旋转区域提议网络 (RRPN)，然后是旋转感兴趣区域 (RRoI) 方法。RRPN 用于生成方向文本的区域提议，并添加 RRoI 层以创建使用 RRPN 检测到的文本的特征图。基本架构如图 20 所示。评估是在基准数据集 MSRATD500、ICDAR 2015、ICDAR 2013 上进行的，分别获得了 0.75、0.80 和 0.91 的 f 度量。作者提出了一种针对英文文本的方法；它可以进一步扩展到检测其他语言场景图像中的多方向文本。
- 图 20 Ma 等人提出的基于区域提议的文本检测和提取模型

Segmentation based schemes

这些方法基本上是为了精确生成文本区域而开发的。这些方法可以检测多尺寸文本，但对检测图像中的单个文本行或单词很敏感。例如 YOLO、EAST 和单次多框检测器。
Redmon 等人的一系列 YOLO 已用于一般物体检测和文本检测。它接受各种文本大小，并且速度快，准确率更高。YOLO 的扩展版本，即 YOLO9000 能够检测 9000 个类别的物体。SSD 是一种单次多框检测器，在区域提案中引起了关注。该方法可以生成具有不同文本纵横比的边界框。即使对于较小尺寸的图像，它也可以生成良好的结果。TextBoxes 是一种准确、高效地从场景图像中检测文本的方法。即使背景非常复杂，该方法也能产生更好的结果。当字符之间的间隙很大时，它可能会产生较差的结果。TextBoxes 文本检测的基本架构如图 21 所示。
- 图 21 TextBoxes 方法中使用的文本检测和定位的基本架构
高效准确的场景文本检测器 (EAST) 是另一种基于深度学习的文本检测方法。该方法是一种快速准确的场景文本检测器。它可以从图像中检测任意方向的文本。该技术可以从图像中检测文本行以及单词。它可能会为垂直文本实例生成错误结果。
Tang 和 Wu 提出了一种基于 CNN 的强监督方法，用于从野生背景图像中检测和分割文本。该算法在三个级联模型中工作，即 Dnet、Snet 和 Cnet。Dnet 用于从自然图像中提取 CTR 区域；此外，Snet 有助于细化文本部分。此外，基于卷积神经网络 (CNN) 的 s 网络用于对区域中的文本和非文本区域进行分类。所提出的方法如图 22 所示。该方法在三个基准数据集（ICDAR 2011、ICDAR 2013 和 SVT）上实施，分别实现了 0.88、89.5 和 76.2 f 值。该方法还可以进一步增强对不同语言文本的识别。
- 图 22 Tang 和 Wu 提出的文本检测和定位方法
Shi 等人提出了一种从自然场景图像中检测有向文本的方法。该方法称为 seglinks，用于检测有向文本。片段是表示单词的框，链接用于指示单词之间的连接。前馈 CNN 已用于从图像中检测片段和链接。为了避免冗余检测，使用了两种类型的链接，即层内链接和跨层链接。然后使用一些手动考虑的阈值过滤这些片段和链接。将片段视为节点，将链接视为边，创建图，并使用深度优先搜索 (DFS) 来查找这些图。为了训练模型，使用了片段和链接的基本事实。通过最小化片段分类、偏移回归和链接分类对模型进行了优化。在基准数据集 ICDAR 2015、ICDAR 2013 和 MSRATD500 上进行了实验评估，分别取得了 0.75、0.77 和 0.853 的 f 测量值。该模型适合检测有方向的文本。该方法无法检测具有大字符的文本（图 23）。
- 图 23 Shi 等人提出的文本检测与定位方法
Li 等人（Shape robust text detection with progressive scale expansion network）提出了一种精确检测任意形状文本实例的方法。该方法能够为文本实例生成多个内核。扩展最小尺度内核可以检测文本实例的完整形状。该方法在 CTW1500、TotalText、ICDAR 2015 和 ICDAR 2017(MLT) 数据集上进行了评估，并使用该网络分别实现了 72.2、85.69、80.87 和 82.2 f 测量值。
Liao 等人提出了一种基于可微分二值化的方法，该方法对分段网络进行二值化。此模块可以设置二值化的自适应阈值，有利于后处理和性能增强。该方法在 MSRA-TD500 和 CTW1500 数据集上进行了评估。该技术在 MSRA-TD500 和 CTW1500 数据集上实现了 84.9 和 83.4 f 测量值。ResNet-50 已被用作网络的主干。

Benchmarked Datasets

数据集收集是该领域最具挑战性和手动完成的任务之一。在本节中，我们总结了一些公开可用的数据集，可以从互联网上获取。目前正在开发其他几个用于文本检测的数据集。读者和研究人员可以从表 7 中给出的链接中找到并下载相应的数据集。
文本检测领域最近的一个竞赛是“Robust Reading”，它提供了一系列国际文档分析与研究会议 (ICDAR) 数据集 (2003/05/11/13 /15/17/19)。这些数据集是作者最常用于图像和视频的数据集。除此之外，街景文本 (SVT)、COCO、IIIT5K、MSRA-TD500、Chars74、KAIST 以及表中描述的其他数据集在文本方面具有不同的挑战和多样性。这里使用不同的参数来描述数据集。这些参数的解释如下：
- 训练：训练用于呈现特定数据集中的训练图像的数量。
- 测试：测试代表特定数据集的测试图像的数量。
- 训练实例：训练实例是用于训练模型的文本实例数。这些实例是相应作者给出的文本字符串的数量。
- 测试实例：测试实例是用于训练模型的文本实例数。这些实例是相应作者给出的文本字符串的数量。
- 文本类型：文本类型表示数据集中考虑的文本类型。这些文本类型可以是水平的、近水平的、多方向的或弯曲的。
- 来源：来源代表图像的收集地点。数据集的不同图像来自不同的来源，这些来源用各自的数据集来描述。
- 考虑的环境：环境条件表示从周围环境捕捉图像时要考虑的参数。这些条件包括图像的挑战。
- 脚本：脚本代表在数据集图像中考虑的脚本类型。
- 文本检测与识别：该表还显示数据集是否可用于文本检测或文本识别。“✓”表示可以用于提到的参数，“X”表示不能使用。
- 可用性：此参数显示可从互联网下载数据集的各个链接。

Performance evaluations and comparisons

Evaluation parameters

基于计算机视觉的方法需要在技术上进行验证以证明其有效性。每种新技术都会根据一些标准参数进行比较和评估，这些参数称为性能矩阵。为了衡量文本检测的效果，使用了诸如准确率、召回率、F 值等各种参数。这些参数分别在公式 5、公式 6 和公式 7 中借助数学表达式进行解释。这些参数可以使用真正例 (TP)、真阴性 (TN)、假阳性 (FP) 和假阴性 (FN) 来计算。文献显示，一些作者还使用字符召回率 (CRR)、区域误报率 (FRR)、错误检测率 (FDR) 和遗漏率 (MR) 进行性能评估。这些参数的数学表达式分别如公式 8、公式 9、公式 10 和公式 11 所示。
- 真正例 (TP) 图像中的文本区域被正确预测为文本区域。
- 真负例 (TN) 将非文本区域预测为文本区域的图像。
- 假阳性 (FP) 将文本区域预测为非文本区域的图像。
- 假阴性（FN）将非文本区域预测为非文本区域的图像。
准确率Precision（P）定义为模型对文本区域进行准确预测的能力，又称为正确的正向预测。
- $P=\frac{TP}{TP+FP}$
召回率（R）定义为模型预测所有文本对象的准确率，即在所有基本事实中检测到的真正文本对象。
- $R=\frac{TP}{TP+FN}$
F-Measure 它定义为准确率和召回率的调和平均值。
- $F_1=\frac{2*P*R}{P+R}$
字符召回率：字符召回率 (CRR) 定义为提取的字符总数与图像中实际字符数的百分位数。
- $CRR=\frac{NumberofCharacterExtracted}{NumberofActualCharacters}*100$
区域误报率区域误报率 (FRR) 是非文本区域占图像区域总数的百分位数。
- $FRR=\frac{Numberofnon − TextRegion}{TotalNumberofRegions}*100$
漏检率：漏检率 (MR) 定义为漏检或未检测到的文本数量与现有文本数量之比。
- $MR=\frac{NumberofMisses∕UndetectedText}{TotalNumberofText}*100$
错误检测率：错误检测率 (FDR) 是错误检测的文本与现有文本总数的比率。
- $FDR=\frac{NumberofFalseDetectedText}{TotalNumberofText}*100$

Existing algorithms’ performance

在本节中，我们讨论了一些用于检测和定位的最新技术的性能。表 8、9、10、11 和 12 表示了这种比较，每个表都代表了特定数据集在场景文本检测中所取得的结果。术语 P、R 和 F 分别用于表示准确率、召回率和 F 度量。这些术语已在上一节中探讨过。在表中，我们仅报告了自然图像的文本检测和定位性能。表 8、9、10、11、12 中的粗体值表示不同作者在相应数据集上取得的最高准确率、召回率和 F 度量值。

ICDAR 2017, multi lingual text (MLT)

这是一个多语言文本数据集，用于从自然图像中检测文本。该数据集包含 180000 张图像，即 9000 张训练图像和 9000 张测试图像。这些图像是从各种来源收集的，图像中使用了各种各样的场景。该数据集适用于多种语言，如表 8 所述。表 8 列出了现有的工具和技术以及 ICDAR 2017、MLT 数据集取得的结果。
- 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ICDAR 2017, Reading Chinese text in wild (RCTW)

这是一个用于检测和识别的文本图像数据集。它包含 8034 张训练图像和 4229 张测试图像。它包含英文和中文脚本的多方向图像。这些图像是从各种室内和室外场景中收集的。表 8 展示了 ICDAR 2017、RCTW 数据集的现有结果。

ICDAR 2015

数据集包含 1000 张训练图像和 500 张测试图像。该数据集是为从自然场景图像中检测和识别文本而创建的。图像是使用谷歌眼镜捕获的，并且只包含英文脚本的文本。文本图像以不同的方向和分辨率级别捕获。表 9 显示了数据集上的现有性能。

ICDAR 2013

该数据集是 ICDAR 2011 的扩展形式。它是用于检测和识别任务的数据集。图像是从电子邮件和网页中收集的。它仅包含水平图像。它有 229 个训练图像和 233 个测试图像。数据集有 848 个训练实例和 1095 个测试实例。ICDAR 2013 的现有性能如表 10 所示。

TotalText

这是一个用于文本检测和识别任务的自然图像数据集。它包含 1255 张训练图像和 300 张测试图像，有 9330 个文本实例。它包含水平、多方向和弯曲的文本。它包括来自徽标、标志和入口的图像。该数据集包含英文和中文脚本的复杂场景图像。 TotalText 的现有性能如表 12 所示。

Major challenges with natural scene images

现在我们可以得出结论，由于各种几何和非几何原因，从自然场景图像中进行文本检测和识别是一项非常艰巨的任务，这为该领域的研究人员提供了一条活跃的道路。这些挑战降低了自然图像检测的性能。这些问题可以分为三类挑战，即自然图像复杂性、基于文本检测和定位方法的问题以及基准数据集相关问题。这些挑战总结在图 24 中。图像相关问题是主要报告的问题。文本检测和定位问题分为基于机器学习、基于深度学习，常见问题作为基准相关问题分为数据集大小、环境条件、文本图像类型和文本图像语言。
- 图 24 文本检测与定位挑战分类

Natural image complexities

这些是图像本身出现的问题。从文献中，我们将图像复杂性归结为四大类，即推理问题、文本多样性、背景不确定性和相机相关问题。这些问题在表 13 中突出显示，其后续部分将在下面讨论：

Inferential issues

图像噪声使用移动相机拍摄的图像本身包含各种噪声，这会使检测过程变得困难。由于打印错误、颜色使用不当等原因，图像可能会很嘈杂。此类噪声影响会导致图像文本检测性能不佳。
不一致的光照和遮挡：有时，移动相机拍摄的图像和视频会受到不连续光照条件的影响，这使得提取过程成为一项具有挑战性的任务。由于移动相机、图像中的阴影或光的反射，可能会出现闪电情况。
灰度等级：为了吸引观众，自然图像不一定非要是二元色。随着技术的进步，自然图像的文本可能会呈现不同的灰度。然而，这些颜色看起来很吸引人，但却使从图像中检测和定位文本变得复杂。
照明：相机拍摄的图像可能会受到不均匀照明的影响。这可能会导致图像中的文本检测效果不佳。当图像的照明效果较高时，某些方法表现不佳。
模糊性：从移动设备捕获图像时，捕获的图像可能会由于捕获时的运动或相机的缩放效果而变得模糊，这会妨碍检测和查找图像中的文本位置（图 25）。
- 图 25 场景图像中的挑战示例图像

Text diversity‑related issues

多方向性：为了吸引观众，文本可能是水平的、垂直的、弯曲的，甚至是多方向的。用于检测水平文本的技术不能用于检测方向性的文本。因此，多方向性是许多作者在研究中提出的主要问题。
多语言：自然场景文本图像有时可能包含多种脚本/语言的文本。在印度这样的国家，多语言被用作沟通媒介，广告牌或指示牌用当地语言、国家语言和一种国际语言书写。因此，在这样的环境中检测文本是一个重要的问题，因为检测方案不可能对所有脚本都通用。
字体大小/样式的变化：为了吸引观看者的注意力，可以在图像中使用不同大小的字体样式和大小来定义周围环境。字体大小不等和变化可能会导致从图像中检测文本部分的问题。
不同的纵横比：自然场景图像中存在的文本可能具有高度和宽度的变化，称为图像的纵横比。所有图像的纵横比并不相同。因此，生成具有不同纵横比的边界框是文本定位的一个问题。

Background uncertainty issues

背景杂乱: 自然图像本身并不包含文本，有时文本被复杂的背景所覆盖，从而导致许多误报的产生。背景杂乱是文本检测任务中的主要挑战之一。与文本相似的物体有时，从图像中提取文本时，一些物体（如砖块、栅栏、标志、草地等）与字符形状相似。这样的物体会导致误报的产生并降低检测性能。

Camera related issues

图像拍摄角度随着移动设备的进步，拍摄图像不再仅限于直线方向，还可以从不同角度拍摄，这使得从图像上进行检测变得困难。
压缩 :压缩是减小图像尺寸。有时，当传输到设备时，图像会被压缩并导致图像质量不佳，最终产生模糊的图像并使检测变得复杂。
高阶失真：有时图像中的文本看起来与图像中实际的不一样，这种效果称为失真。它会导致原始图像发生变化。它可能是由于图像的透视变化和相机的镜头而产生的。扭曲的图像可能会导致文本检测效果不佳。

Text detection and localization challenges

根据前面第 2 节中讨论的文本检测和定位方案，我们将检测和定位挑战分为三类：（1）基于机器学习的挑战，（2）基于深度学习的挑战，以及（3）常见挑战。这些挑战将在以下小节中讨论：

Machine learning‑based challenges

基于机器学习的文本检测和定位方法可能存在各种问题，导致性能低下。这些问题可能是预处理技术的选择、标准分类器的选择等。这些挑战如下所述：
- 预处理机制：预处理通常用于消除图像中的噪声并提高图像质量。更好的预处理技术可以在很大程度上增强性能。这些预处理方法的选择是一个挑战，因为这些方法的版本可用于图像处理。
- 标准分类器的选择：机器学习中有不同类型的分类器可用于过滤文本和非文本区域 Kumar 等人 (2020)。因此，选择能够提高性能的标准分类器仍然是一个重要问题。

Deep learning‑based challenges

深度学习是计算机视觉领域最受关注的话题。到目前为止，这些方法在对象检测任务中也表现出色。基于深度学习的方法可能会遇到不同的问题，例如增强策略、训练数据的大小、模型的效率、资源需求和注释。这些解释如下：
- 图像增强：图像增强是创建用于深度学习的大型训练集所必需的。它结合了图像的各种几何变化。选择合适的增强方法可能会影响模型的性能。因此，选择图像的增强策略是基于深度学习的方法的主要问题之一。
- 训练数据规模：基于深度学习的模型的首要要求是足够数量的数据集，为了使它们能够高效地学习，需要大量的数据集。
- 模型的超参数：基于深度学习的模型包含隐藏层、激活函数、每层的神经元数量、批大小、时期数等。超参数的选择极大地影响了基于深度学习的模型的性能。任何超参数的微小变化都可能影响模型的整体性能。因此，这些参数的选择是一个重要的设计问题，需要使用某种优化机制来呈现。
- 资源需求：要高效地训练基于深度学习的模型，需要 GPU 等优质资源，而这些资源非常昂贵。然而，要高效地将其整合到嵌入式和移动设备中，仍然需要。
- 注释：所有基于深度学习的模型都被视为监督学习模型。因此，需要大量带注释的数据才能有效地学习特征。

Common challenges

这些是机器学习和深度学习方法中都会遇到的挑战。这些挑战包括语言问题、边界框的大小以及弯曲和多方向文本图像中的文本检测。
语言问题：自然场景图像中的主要定位和检测问题是文本所使用的语言。用于一种语言的文本检测方法并不总是对另一种语言有效。因此，一种文本类型的检测和定位方案有时可能对另一种文本失败。例如，乌尔都语的文本检测方法并不总是检测中文文本的好选择。
合适的锚点/边界框的大小：定义边界框的准确长度始终是文本检测和定位方案中的一个重要问题。有时，对于小尺寸的文本，较大的锚点可能效率不高，而选择较小的锚点可能会丢失大字符串中的重要字符。
水平和弯曲文本：图像中的文本检测针对水平文本提出的检测方案无法以相同的效率定位多方向或弯曲的文本。因此，一种适用于所有类型文本的方法仍然是该领域的一个悬而未决的挑战。

Benchmarked datasets related issues

在进行计算机视觉和模式识别时，足够大小的基准数据集很少。基准领域的一些相关问题可能是数据集的大小、环境条件、图像类型和语言的可用性。这些问题将在下面讨论：
- 数据集的大小：随着深度学习领域的蓬勃发展，足够大小的训练数据是时代的需要。与用于文本检测和定位的传统机器学习方案相比，深度学习在各个方面都表现出色。因此，为了更好地学习模型，需要足够数量的训练数据集。
- 环境条件：为了满足所有挑战的需求，数据集的图像需要各种环境条件，以便所提出的方法能够更好地发挥作用。数据集中存在的图像应该具有各种挑战。所有可用的基准数据集都没有提供所有图像挑战。
- 文本图像类型：图像中的文本可以以水平、多方向或弯曲的形状出现。包含所有文本类型的数据集的可用性仍然是该领域的一个问题。
- 文本图像语言：研究人员所需的文本语言是否出现在数据集中仍是一个开放的挑战。大多数可用的数据集是英文、中文和韩文，而其他语言的数据集仍然不足。

Future directions

本节提供了在审查多篇研究论文时确定的文本检测和定位的潜在未来方向。从现有工作中，我们发现并分析了各种挑战，这些挑战值得在未来探索以改进该领域。考虑到所有漏洞，以下是该领域的一些未来方向：
- 多语言性：除了语言受限的数据集外，该技术还不能用于其他语言。现有的研究充分表明，该研究仅限于笔画粗犷的语言。该领域的大部分注意力都集中在英语、中文和韩语上。其他语言仍然缺乏研究人员的关注。因此，考虑实际可以处理多种语言文本的系统仍然是一个挑战，未来可以改进。
- 弯曲和有向文本检测：自然场景图像可能包含不同方向的文本。一些现有工作让社区意识到在检测多方向文本方面已经取得了重大成功。现有的大部分工作都强调水平或近水平文本的检测和定位。从弯曲和多方向文本图像中读取和检测文本是时代的需要。这项工作可以扩展到检测和定位此类文本，以充分造福实时应用。
- 将深度学习与大数据相结合深度学习模型拥有大量训练数据，可以提高检测性能。尽管如此，现有的深度学习模型使用的训练数据有限，这也限制了性能。因此，将大数据与深度学习实践相结合可以显著改善该领域。
- 图像环境考虑：该领域的许多现有工作都考虑了图像中的有限环境问题。从表 7 中，我们可以得出结论，许多图像挑战包括模糊、文本纵横比和低对比度图像，而考虑到文本与背景物体相似、照明和室内外位置的图像仍然不足。这项工作可以进一步致力于包含复杂环境挑战的图像。
- 文本类型的几何解决方案实施：自然图像可能包含不同样式和纵横比的文本，以吸引观看者的注意力。这些变化可能会导致检测和定位效率低下。将来，可以通过合并模块来改进方法，以处理文本的几何问题。

Conclusion

自然场景中的文本包含有用的信息，可为图像中的对象提供意义。文本的检测和定位可能有益于各种应用，如辅助技术、机器人导航、自动驾驶汽车和各种智能应用。过去几十年来，该领域的研究和发展十分显著。尽管在检测和定位方面取得了巨大成功，但这项任务仍然面临着各种具有挑战性的环境条件。尽管当前的技术正在加大设计和开发这些算法的力度，但与人类可视化相比，它们仍然有所欠缺。
领域。
- 图像环境考虑：该领域的许多现有工作都考虑了图像中的有限环境问题。从表 7 中，我们可以得出结论，许多图像挑战包括模糊、文本纵横比和低对比度图像，而考虑到文本与背景物体相似、照明和室内外位置的图像仍然不足。这项工作可以进一步致力于包含复杂环境挑战的图像。
- 文本类型的几何解决方案实施：自然图像可能包含不同样式和纵横比的文本，以吸引观看者的注意力。这些变化可能会导致检测和定位效率低下。将来，可以通过合并模块来改进方法，以处理文本的几何问题。

Conclusion

自然场景中的文本包含有用的信息，可为图像中的对象提供意义。文本的检测和定位可能有益于各种应用，如辅助技术、机器人导航、自动驾驶汽车和各种智能应用。过去几十年来，该领域的研究和发展十分显著。尽管在检测和定位方面取得了巨大成功，但这项任务仍然面临着各种具有挑战性的环境条件。尽管当前的技术正在加大设计和开发这些算法的力度，但与人类可视化相比，它们仍然有所欠缺。
本文回顾了文档和自然场景图像之间的比较、范围和应用、文本信息提取架构、传统和基于深度学习的文本检测方案、基准数据集以及从自然图像中检测的挑战。总之，本文为研究人员在文本检测和定位方面的发展方向，包括其他提到的挑战。

羞儿

关注

29
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
【读点论文】Text detection and localization in scene images: a broad review

文本检测和定位在文本分析系统领域已广受欢迎，因为它们为大量实时应用铺平了道路，例如移动音译技术、视障人士辅助方法等。文本检测和定位技术用于查找图像中文本区域的位置。本文打算从五个方面对该领域进行广泛的回顾：（1）文档图像与场景图像的比较以及自然场景图像的应用，（2）用于不同语言文本检测和定位的重要且最新的传统机器学习和基于深度学习的方法，（3）各种公开可用的基准数据集，（4）其他基准数据集的比较分析，以及（5）该领域的相关挑战和未来范围。本文总结了该领域的一些潜在方法，可以为研究人员未来探索该领域提供有用
复制链接

扫一扫