文字识别之检测部分

最新推荐文章于 2024-04-12 19:48:06 发布

开始学AI

最新推荐文章于 2024-04-12 19:48:06 发布

阅读量757

点赞数 3

分类专栏：论文阅读文章标签：计算机视觉目标检测文字识别

本文链接：https://blog.csdn.net/qq_41964545/article/details/124801620

版权

论文阅读专栏收录该内容

13 篇文章 4 订阅

订阅专栏

此处读原文

摘要

随着深度学习的兴起和发展，计算机视觉发生了巨大的变革和重塑。作为计算机视觉的一个重要研究领域，场景文本检测与识别不可避免地受到了这一革命浪潮的影响，从而进入了深度学习时代。这项调查旨在总结和分析深度学习时代场景文本检测和识别的主要变化和重大进展。通过本文，我们致力于：(1)介绍新的见解和想法；(2)突出最近的技术和基准；(3)展望未来的趋势。

1 引言

文本作为交流和协作的重要工具，在现代社会发挥着比以往任何时候都更重要的作用。可用于广泛的真实应用中，如图像搜索、机器人导航、工业自动化等任务中。

如图1所示，场景文本识别主要分为检测与识别两部分。本文重点介绍深度学习方法中的文字检测部分。

在野外检测和识别文本时仍可能遇到一系列重大挑战。困难主要来自三个方面：

1. 自然场景中文本的多样性和变异性有别于文档中的文字，自然场景中的文本表现出更高的多样性和变异性。例如，场景文本的实例可以使用不同的语言、颜色、字体、大小、方向和形状。此外，场景文本的纵横比和布局可能会有很大差异。所有这些变化对针对自然场景中的文本设计的检测和识别算法提出了挑战。

2. 背景的复杂性和干扰自然场景的背景几乎是不可预测的。可能存在与文本极其相似的图案(例如，树叶、交通标志、砖块、窗户和栅栏)，或者由异物造成的遮挡，这可能会导致混淆和错误。

3. 不完美的成像条件在不受控制的情况下，文本、图像和视频的质量无法保证。也就是说，在较差的成像条件下，文本实例可能由于不适当的拍摄距离或角度而具有低分辨率和严重失真，或者由于失焦或抖动而变得模糊，或者由于低光强而产生噪声，或者被高光或阴影破坏。

2 深度学习时代的方法论

近年来的方法主要有以下两个特点：(1)大多数方法使用基于深度学习的模型；(2)大多数研究人员从不同的角度来处理这个问题，试图解决不同的挑战。

在本部分中，我们将现有方法分类为分层分类，并以自上而下的方式介绍它们。首先，我们将它们分为四种系统：(1)文本检测系统，用于检测和定位自然图像中的文本；(2)识别系统，用于将检测到的文本区域的内容转录并转换为语言符号；(3)在一个统一的端到端系统流水线中执行文本检测和识别；(4)旨在支持文本检测和识别的主要任务的辅助方法，例如合成数据生成。在每一类下，我们从不同的角度回顾了最近的方法。

本文只介绍文本检测系统。

2.1 文本检测系统

场景文本检测在分类上可以归结为一般的目标检测，它被分为一阶段方法和两阶段方法。事实上，许多场景文本检测算法主要是受通用对象检测器的设计启发并遵循这些设计。

场景文本检测算法的发展经历了三个主要阶段：(1)在第一阶段，基于学习的方法配备了多步流水线，但这些方法仍然缓慢且复杂。(2)将一般目标检测的思想和方法成功地植入到本课题中。(3)在第三阶段，研究人员设计了基于亚文本成分的特殊表征，以解决长文本和不规则文本的挑战。

受目标检测启发的方法

在这个阶段中，场景文本检测算法是通过修改通用检测器的区域建议和边界盒回归模块来设计的，以直接定位文本实例。

如图所示。它们主要由将输入图像编码到特征地图中的堆叠卷积层组成。特征地图上的每个空间位置对应于输入图像的一个区域。然后，特征映射被馈送到分类器，以预测文本实例在每个这样的空间位置的存在和定位。

这些方法极大地将流水线减少为端到端可训练的神经网络组件，使得训练变得容易得多，推理速度快得多。在这里介绍最具代表性的作品。

受一阶段对象检测器的启发，TextBox(Liao等人，2017)通过将默认框定义为具有不同长宽比规格的四边形，使SSD(Liu等人，2016a)适应文本的不同方向和长宽比。

East(周等人，2017)通过采用U型设计(Ronneberger等人，2015)集成不同层次的特征，进一步简化了基于锚的检测。在SSD中，输入图像被编码为一个多通道特征地图，而不是多个不同空间大小的层。每个空间位置的特征被用来直接回归底层文本实例的矩形或四边形边界框。具体地，预测文本(即文本/非文本)和几何的存在，例如矩形的方向和大小，以及四边形的顶点坐标。EAST以其高度简化的流水线和实时速度执行推理的效率，在文本检测领域发挥了重要作用。

这一阶段的主要贡献是简化了检测管道，并随后提高了效率。然而，由于接受域的限制，一阶段方法在面对弯曲、定向或长文本时的性能仍然有限，而两阶段方法的效率也是有限的。

2.2 基于子文本组件的方法

文本检测与一般对象检测的主要区别在于，文本作为一个整体是同质的，并且具有局部性，这与一般对象检测不同。通过同质性和局部性，我们指的是文本实例的任何部分仍然是文本的性质。人类不必看到整个文本实例就知道它属于某个文本。

这样的属性为只预测子文本组件的文本检测方法的新分支奠定了基石，然后将它们组装成一个文本实例。从本质上讲，这些方法可以更好地适应前面提到的弯曲、长和定向文本的挑战。如图所示，这些方法使用神经网络来预测局部属性或片段，并使用后处理步骤来重建文本实例。与早期的多阶段方法相比，它们更依赖于神经网络，而且管道更短。

组件级别的方法通常以中等粒度进行预测。组件是指文本实例的局部区域，有时会重叠一个或多个字符。

代表性的组件级方法是Connectionist Text Proposal Network(CTPN)(Tian等人，2016)。CTPN模型继承了锚定和用于序列标记的递归神经网络。它们将RNN堆叠在CNN之上。最终特征地图中的每个位置表示由相应锚点指定的区域中的特征。假设文本水平显示，每行特征被送入RNN，并被标记为文本/非文本。还可以预测线束段大小等几何图形。CTPN是第一个用深度神经网络预测和连接场景文本片段的网络。

总体而言，基于亚文本成分的检测对文本实例的形状和纵横比具有较好的灵活性和泛化能力。主要的缺点是，用于将片段分组为文本实例的模块或后处理步骤可能容易受到噪声的影响，并且该步骤的效率高度依赖于实际实现，因此可能在不同的平台上有所不同。

参考文献

Long S, He X, Yao C. Scene text detection and recognition: The deep learning era[J]. International Journal of Computer Vision, 2021, 129(1): 161-184.