文本检测和识别综述

最新推荐文章于 2023-09-23 09:15:00 发布

samoyan

最新推荐文章于 2023-09-23 09:15:00 发布

阅读量3.5k

点赞数

分类专栏： NLP 文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/baoyan2015/article/details/121900137

版权

NLP 专栏收录该内容

37 篇文章 1 订阅

订阅专栏

参考ReLaText: Exploiting Visual Relationships for Arbitrary-Shaped Scene Text Detection with Graph Convolutional Networks

在深度学习时代之前，只有少数作品关注任意形状的文本检测。

Shivakumara 等人。 [43] 提出了一种基于四叉树的方法来检测视频中的弯曲文本。

法布里齐奥等人。 [44] 提出将提取的候选文本 CC 分组为一个图形，其中基于某些规则属性检测任意形状的文本行。

由于这些方法的性能严重依赖启发式规则或手工制作的特征，因此它们不如最近基于深度学习的方法稳健。准确性和能力。

这些方法大致可以分为两类：自顶向下的方法和自底向上的方法。

自顶向下的方法。

自顶向下方法通常将文本视为一种特殊的对象，并直接采用最先进的自顶向下对象检测或实例分割框架来解决文本检测问题。

Jaderberg 等人[11]首先采用 R-CNN [45] 进行文本检测，但其性能受到传统区域提议生成方法的限制 [46]。

后来，钟等[47]、廖等[2]和 Guptaet al.[12]采用 Faster R-CNN、SSD 和 YOLO 分别检测水平文本。

为了将 FasterR-CNN 和 SSD 扩展到多向文本检测，Maet al.[13]和刘等人[3]建议使用旋转的矩形或四边形锚点来寻找倾斜的文本建议。

由于直接预测四边形边界框的顶点坐标存在关于顶点顺序的标签混淆问题，Liu et al. [48]建议将边界框离散为关键边缘，并使用多类分类器学习正确的匹配类型。

此外，由于 Faster R-CNN 和 SSD 使用的锚点机制对于文本检测任务不灵活，Zhou et al. [5]和他等人[1]遵循 DenseBox [22] 的“无锚”思想，并提出使用 FCN [23] 通过图像的所有位置和尺度直接输出相关文本实例的像素级文本分数和边界框。

尽管更灵活，但基于 DenseBox 的 onestagetext 检测器的功能有限，因为它们无法有效检测长文本实例 [5]。

为了解决这个问题，Zhong 等人。 [49] 提出使用DenseBox 替换原来的基于anchor 的RPNin Faster R-CNN，这样他们的基于Faster R-CNN 的文本检测器可以摆脱anchormechanism 的限制，同时保持多方向文本检测的良好精度。

另一种方法[15]首先通过对检测到的文本边界框的角点进行采样和分组来生成候选框，其中不合理的框被位置敏感分割分数淘汰。

由于上述文本检测器预测的矩形或四边形边界框不能足够紧密地包围弯曲文本，因此这些方法无法有效检测弯曲文本。

为了将 R-FCN [50] 扩展到弯曲文本检测，Liu 等人。 [25] 修改了边界框回归模块以预测每个文本建议有 14 个点的更紧密的多边形边界框，并通过循环神经网络进一步细化以使边界更准确。

旺格等人[26]认为固定14个点的多边形对于长弯曲文本行不够精确，因此他们提出使用循环神经网络来预测不同形状文本的不同点数的多边形。

同时，另一类方法 [27-30] 将文本检测制定为实例分割问题，并借用了现有的自顶向下实例分割框架，如 Mask R-CNN [31] 来预测每个正提议中相应文本实例的分割掩码和可选的额外几何属性。尽管这些方法，尤其是基于 Mask RCNN 的方法 [28, 29]，在大多数基准数据集（如 Total-Text 和 CTW1500）上取得了优异的性能，但它们对附近的长曲线文本实例并不鲁棒。

唐等人。 [32] 介绍了一个新的密集和任意形状的文本检测数据集，即 DAST1500，它主要由商品图像组成，以证明这一点。

主要原因是现有自顶向下方法生成的附近长弯曲文本实例的矩形proposals高度重叠，并且其中一些可能被非最大抑制（NMS）算法错误地抑制，从而无法正确检测到相应的文本实例。底部-up 方法。

自下而上的方法通常遵循组件分组范式，即首先检测文本组件，然后将这些组件分组为文本实例。

与自顶向下的方法相比，自底向上的方法可以摆脱区域提议生成模块的局限性。

根据文本成分的粒度，这些方法可以进一步分为两类：像素级方法和段级方法。

1）像素级：基于像素的方法通常首先利用语义分割或实例分割框架来预测像素级文本性得分图，然后使用不同的方法将文本像素分组为单词/文本行并计算相应的边界框。

Zhang et al.[10]首先使用 FCN 来预测文本块，从中提取候选字符，然后使用后处理方法生成文本行。该类别的最近工作直接使用局部像素连接（例如，8-邻域）来将二值化文本分数映射上的像素合并为 CC，每个 CC 代表一个单词/文本行。

为了避免将附近的单词/文本行合并在一起或将单词/文本行过度分割成碎片，这些方法试图利用其他辅助信息，例如链接预测 [4, 51]，渐进式扩展[52, 53]，文本边界预测 [35]、文本中心线提取 [37、54]、文本中心边界概率预测 [55]、马尔可夫聚类 [56]、方向场预测 [36]、像素嵌入映射 [57] 和字符整体估计 [58]以提高像素合并性能。

虽然这些基于局部像素连接的线分组方法在基准数据集上取得了优异的性能，但我们发现它们倾向于将具有大字符间距的文本实例过度分割成片段，这也在 [4, 36, 37] 中提到。2) 段级：基于段的方法首先检测文本段，每个文本段都包含单词/文本行的一个字符或部分。

这些方法的难点还在于如何将检测到的文本段稳健地分组为单词/文本行。

此类早期的作品，如 CTPN [14] 和 Wordsup [33] 采用基于规则的方法将检测到的文本片段分组为水平或多向文本实例，这对弯曲文本不具有鲁棒性。最近，Liu 等人。 [34] 提出了一种基于字符嵌入的方法，将检测到的字符分组为弯曲的文本行。

然而，他们在 Total-Text 上报告的结果比像素级方法差。

我们提出的 ReLaText 也是一种段级自下而上的方法，但我们将文本检测表述为视觉关系检测问题，并利用图卷积网络来预测文本段之间的链接关系，以便可以对任意形状的文本实现更稳健的文本行分组。 2.2.

视觉关系检测自从VRD[59]等一些大规模数据集发布以来，视觉关系检测经历了快速的发展。

视觉关系定义为 hsubject；谓词;宾语三元组，其中“主语”通过“谓语”关系与“宾语”相关。

视觉关系检测的目标是检测对象以及从图像中预测对象对之间的关系。

该任务的典型范式由三个模块组成，即个体对象检测、主体-对象对构建和关系分类 [59-65]。

由于上下文信息对于提高关系分类的准确性很重要，大多数以前的方法都试图通过同时将主语和宾语提议以及它们的联合作为输入来预测谓词关系来利用更广泛的上下文 [59-62]。

Laterworks [63, 64, 66] 提出使用 GCN 或其变体来进一步增强上下文信息。

除了上下文信息之外，对象之间的语义关系及其相应的谓词对于提高准确性也非常重要[59,62,67]。