PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network阅读

最新推荐文章于 2023-03-16 16:57:03 发布

giganticpower

最新推荐文章于 2023-03-16 16:57:03 发布

阅读量978

点赞数

文章标签：深度学习神经网络 python 计算机视觉

本文链接：https://blog.csdn.net/giganticpower/article/details/120289150

版权

PGNet是一种单阶段文本检测算法，能高效识别任意形状的文本，无需字符级标注及NMS操作。通过提出的PG-CTC损失和图细化模块，提高了识别准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network

单阶段文本spotter算法——点收集网络
论文链接：https://arxiv.org/abs/2104.05458
代码链接：https://github.com/PaddlePaddle/PaddleOCR

论文解析

PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network
论文核心思想
- 培训和推理细节
- - 结果分析

论文核心思想

阅读任意形状的文本已受到越来越多的研究关注。但是，现有的文本识别器大多建立在两阶段框架或基于字符的方法上，它们会受到非极大值抑制（NMS），兴趣区域（RoI）操作或字符级注释的困扰。在本文中，为解决上述问题，我们提出了一种新颖的全卷积点收集网络（PGNet），用于实时读取任意形状的文本。 PGNet是一个单阶段文本spotter,，其中像素级字符分类图是通过提出的PG-CTC损失学习的，从而避免了字符级注释的使用。使用PG-CTC解码器，我们可以从二维空间中收集高级字符分类向量，并将其解码为文本符号，而无需进行NMS和RoI操作，从而确保了高效率。此外，根据每个字符及其相邻字符之间的关系，提出了一种图形细化模块（GRM），以优化粗略识别并提高端到端性能otal-Text中，它以46.7 FPS的速度运行，大大超过了以前的观察者。

核心流程

贡献有三点：
1、提出了一个简单而强大的任意形状文本spotter，不需要字符级标注，以及不需要nms和roi操作，具有竞争力。
2、提出了一种机制来恢复每个文本实例中字符的阅读顺序，能够在具有挑战性的情况下正确识别。
3、提出了一个有效的图细化模块提高CTC识别率。

整体流程：
首先，输入图像被输入到具有FPN的主干中以产生特征Fvisual。然后，使用Fvisualis通过在1/4大小的输入图像上并行进行多任务学习来预测TCL、TBO、TDO和像素级TCC图。在训练阶段，TCL、TBO和TDO由相同比例的标签地图进行监督，同时提出了PG-CTC损失来训练像素级的TCC地图，以解决缺少字符级标注的问题。在推理阶段，我们从TCL中提取每个文本实例的中心点序列，并用TDO信息进行排序，恢复正确的阅读顺序，使得我们的方法能够正确识别非传统阅读方向的文本。借助于来自TBO的相应边界偏移信息，可以通过多边形恢复在单次拍摄中实现每个文本实例的检测。同时，PG-CTC解码器可以将高级二维TCC映射序列化为字符分类概率序列，并将其解码为最终的文本识别结果。

个人认为最主要的贡献是提出Point Gathering CTC
about PG-CTC:

目的：
帮助摆脱字符级注释，nms以及ROI。

TCC图有37分类，26个字母，10数字，1背景
点收集操作是根据每个中心的中心点从TCC地图中收集字符分类概率序列。
文本区域，可以表示为
在这里插入图片描述
其中 π = {p1, p2, . . . , pN } 是长度为 N 的中心点序列，并且 pi = (xi , yi)。输出 Pπ 是大小为 N × 37 的字符分类概率序列.

在训练过程中，提出的 PG-CTC loss 使得像素级 TCC 图的训练摆脱了字符级注释。典型的 CTC 损失函数解决了
具有与背景类一致长度的源和目标序列的训练问题。 CRNN 框架改变了特征映射到 1，在识别弯曲文本时可能会受到背景噪声的影响。 2D CTC将 CTC 的搜索路径扩展到二维空间，但它仍然无法处理具有多个文本实例的图像。在这里，通过 PG-CTC 解决了这个问题，并将经典的 CTC 损失公式化为 CTC 损失（P，L），其中 P 是字符分类概率序列，L 是其转录标签。对于具有 M 个文本实例的图像，假设中心点坐标序列为 {π1, π1, …, πM}，对应的转录标签为 {L1, L1, …, LM}，那么我们定义
PG-CTC 损失为
在这里插入图片描述
在这里我们可以计算多边形词级标注的中心线，并在训练过程中对其进行密集采样以获得中心点序列πi，而不是使用字符级标注。通过大数据的训练，可以学习到TCC中每个像素的字符分类信息。

在推理过程中，PG-CTC 解码器有助于大大简化端到端的整体流水线
任意形状的文本观察器，PGNet 中不需要 NMS 和 RoI 操作。对于TCL地图中的一个文本区域，我们提取一个中心点序列并按照正确的阅读顺序对其进行排序，可以作为π捐赠。具体来说，我们采用形态学方法获取文本区域的骨架，并将其作为中心点序列。可以从 TDO 地图中提取每个点的文本方向。我们计算所有点的平均方向，并根据沿该方向的投影长度进行排序，得到中心点序列π。字符分类概率序列 Pπ 可以用等式提取。 (1)，PG-CTC解码器可以表示为
在这里插入图片描述
中 Rπ 代表 π 的转录。对于多边形恢复，我们得到对应的边界点对π 与 TBO 映射在同一位置，并顺时针链接所有边界点以获得完整的多边形表示。有关多边形恢复的更多详细信息，请参阅 SAST 。与基于 CTC 的 CRNN 框架相比，PG-CTC 可以处理具有任意形状的多文本实例的图像，其中 CTC 损失的应用扩展了很多。

培训和推理细节

工作站：
CPU: Intel® Xeon® CPU E5-
2620 v2 @ 2.10GHz x16; GPU: NVIDIA TITAN Xp ×4;
RAM: 64GB.
batch_size： 12/18 per GPU in parallel for PGNet-A and PGNet-E.

stem网络在ImageNet上用预先训练的权重初始化。训练过程主要分为GRM模块的热身步骤、微调步骤和训练步骤。在热身步骤中，我们应用Adam优化器以1e-3的学习率训练我们的模型，在SynthText上学习率衰减因子为0.94；在微调步骤中，学习速率被重新启动到1e-3，模型在ICDAR2015和Total-Text数据上进行调整；GRM是我们计划中的一个附加模块，在最后一步中，我们仅在GRM模块中训练可学习的参数，以提供关于ICDAR 2015和有/无GRM的总文本的指标，从而进行公平的比较。

结果分析

在这里插入图片描述