PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network阅读

PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network

单阶段文本spotter算法——点收集网络
论文链接:https://arxiv.org/abs/2104.05458
代码链接:https://github.com/PaddlePaddle/PaddleOCR

论文核心思想

阅读任意形状的文本已受到越来越多的研究关注。但是,现有的文本识别器大多建立在两阶段框架或基于字符的方法上,它们会受到非极大值抑制(NMS),兴趣区域(RoI)操作或字符级注释的困扰。在本文中,为解决上述问题,我们提出了一种新颖的全卷积点收集网络(PGNet),用于实时读取任意形状的文本。 PGNet是一个单阶段文本spotter,,其中像素级字符分类图是通过提出的PG-CTC损失学习的,从而避免了字符级注释的使用。使用PG-CTC解码器,我们可以从二维空间中收集高级字符分类向量,并将其解码为文本符号,而无需进行NMS和RoI操作,从而确保了高效率。此外,根据每个字符及其相邻字符之间的关系,提出了一种图形细化模块(GRM),以优化粗略识别并提高端到端性能otal-Text中,它以46.7 FPS的速度运行,大大超过了以前的观察者。

核心流程

贡献有三点:
1、 提出了一个简单而强大的任意形状文本spotter,不需要字符级标注,以及不需要nms和roi操作,具有竞争力。
2、提出了一种机制来恢复每个文本实例中字符的阅读顺序,能够在具有挑战性的情况下正确识别。
3、提出了一个有效的图细化模块提高CTC识别率。

整体流程:
首先,输入图像被输入到具有FPN的主干中以产生特征Fvisual。然后,使用Fvisualis通过在1/4大小的输入图像上并行进行多任务学习来预测TCL、TBO、TDO和像素级TCC图。在训练阶段,TCL、TBO和TDO由相同比例的标签地图进行监督,同时提出了PG-CTC损失来训练像素级的TCC地图,以解决缺少字符级标注的问题。在推理阶段,我们从TCL中提取每个文本实例的中心点序列,并用TDO信息进行排序,恢复正确的阅读顺序,使得我们的方法能够正确识别非传统阅读方向的文本。借助于来自TBO的相应边界偏移信息,可以通过多边形恢复在单次拍摄中实现每个文本实例的检测。同时,PG-CTC解码器可以将高级二维TCC映射序列化为字符分类概率序列,并将其解码为最终的文本识别结果。

个人认为最主要的贡献是提出Point Gathering CTC
about PG-CTC:

目的:
帮助摆脱字符级注释,nms以及ROI。

TCC图有37分类,26个字母,10数字,1背景
点收集操作是根据每个中心的中心点从TCC地图中收集字符分类概率序列。
文本区域,可以表示为
在这里插入图片描述
其中 π = {p1, p2, . . . , pN } 是长度为 N 的中心点序列,并且 pi = (xi , yi)。 输出 Pπ 是大小为 N × 37 的字符分类概率序列.

在训练过程中,提出的 PG-CTC loss 使得像素级 TCC 图的训练摆脱了字符级注释。 典型的 CTC 损失函数解决了
具有与背景类一致长度的源和目标序列的训练问题。 CRNN 框架改变了特征映射到 1,在识别弯曲文本时可能会受到背景噪声的影响。 2D CTC将 CTC 的搜索路径扩展到二维空间,但它仍然无法处理具有多个文本实例的图像。 在这里,通过 PG-CTC 解决了这个问题,并将经典的 CTC 损失公式化为 CTC 损失(P,L),其中 P 是字符分类概率序列,L 是其转录标签。 对于具有 M 个文本实例的图像,假设中心点坐标序列为 {π1, π1, …, πM},对应的转录标签为 {L1, L1, …, LM},那么我们定义
PG-CTC 损失为
在这里插入图片描述
在这里我们可以计算多边形词级标注的中心线,并在训练过程中对其进行密集采样以获得中心点序列πi,而不是使用字符级标注。 通过大数据的训练,可以学习到TCC中每个像素的字符分类信息。

在推理过程中,PG-CTC 解码器有助于大大简化端到端的整体流水线
任意形状的文本观察器,PGNet 中不需要 NMS 和 RoI 操作。 对于TCL地图中的一个文本区域,我们提取一个中心点序列并按照正确的阅读顺序对其进行排序,可以作为π捐赠。 具体来说,我们采用形态学方法获取文本区域的骨架,并将其作为中心点序列。 可以从 TDO 地图中提取每个点的文本方向。 我们计算所有点的平均方向,并根据沿该方向的投影长度进行排序,得到中心点序列π。 字符分类概率序列 Pπ 可以用等式提取。 (1),PG-CTC解码器可以表示为
在这里插入图片描述
中 Rπ 代表 π 的转录。 对于多边形恢复,我们得到对应的边界点对π 与 TBO 映射在同一位置,并顺时针链接所有边界点以获得完整的多边形表示。 有关多边形恢复的更多详细信息,请参阅 SAST 。 与基于 CTC 的 CRNN 框架相比,PG-CTC 可以处理具有任意形状的多文本实例的图像,其中 CTC 损失的应用扩展了很多。

培训和推理细节

工作站:
CPU: Intel® Xeon® CPU E5-
2620 v2 @ 2.10GHz x16; GPU: NVIDIA TITAN Xp ×4;
RAM: 64GB.
batch_size: 12/18 per GPU in parallel for PGNet-A and PGNet-E.

stem网络在ImageNet上用预先训练的权重初始化。训练过程主要分为GRM模块的热身步骤、微调步骤和训练步骤。在热身步骤中,我们应用Adam优化器以1e-3的学习率训练我们的模型,在SynthText上学习率衰减因子为0.94;在微调步骤中,学习速率被重新启动到1e-3,模型在ICDAR2015和Total-Text数据上进行调整;GRM是我们计划中的一个附加模块,在最后一步中,我们仅在GRM模块中训练可学习的参数,以提供关于ICDAR 2015和有/无GRM的总文本的指标,从而进行公平的比较。

结果分析

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值