端到端文本识别算法:CRAFTS（ECCV2020）

最新推荐文章于 2024-05-27 09:54:28 发布

Mr.小梅

最新推荐文章于 2024-05-27 09:54:28 发布

阅读量4.3k

点赞数 4

分类专栏： ECCV2020 文本检测 OCR 文章标签：深度学习神经网络计算机视觉人工智能算法

本文链接：https://blog.csdn.net/qq_39707285/article/details/109072241

版权

多种文本检测算法性能对比及算法介绍
(https://blog.csdn.net/qq_39707285/article/details/108754444)

论文题目：Character Region Attention For Text Spotting

1. 关键点
2. 算法
2.4 识别阶段
3. 实验
- 3.1 数据集
- 3.2 实验结果
4. 结论

Character Region Attention For Text Spotting(CRAFTS)，是CRAFT作者的进化版本，用作端到端的文本识别，包括文本检测+文本识别，且其中的检测效果比CRAFT还要好。了解CRAFT的可以去参考这篇文章，点击进入。

1. 关键点

端到端的文本识别(text spotter)指的是文本检测+文本识别。通常使用端到端的文本识别能够达到很好的效果，之前的text spotter算法通常把检测和识别分成两个分支，使用RoI Pooling让分支共享特征。然而采用基于注意力的解码器(识别)和表示字符区域空间信息的检测器(检测)之间存在一定的联系，因为这两个模块都需要查找字符区域的位置，如果能把这两个模块结合起来，可能会达到不错的效果。

于是，基于这个想法，就有了本文的 CRAFTS。识别器模块的损失经过检测器模块反向传播，检测模块输出的字符分数map能够帮助识别模块更好的处理字符中心点，识别模块的损失反向传播到检测模块后能够增加字符区域的定位准确性。除此之外，还有一个强化的共享阶段允许任意形状文本区域的特征校正和边界定位。

主要关键点：

提出端到端的网络可以检测和识别任意形状的文本
在校正和识别模块上，利用检测器的空间字符信息，构建了模块之间的互补关系
通过在网络中的所有特征中传播识别损失建立了一个单一的管道
在IC13、IC15、IC19-MLT和TotalText都取得了最佳表现

2. 算法

2.1 综述

在这里插入图片描述

CRAFTS可以分成3个阶段：检测阶段、共享阶段和识别阶段，详细的网络结构如图2所示。

检测阶段输入一张图片然后定位到文本框。共享阶段汇集backbone高层特征和检测器输出，然后使用校正模块对集合特征进行校正，并将其串联在一起形成一个字符相关特征。识别阶段，基于注意的解码器使用字符相关特征预测文本标签。

2.2 检测阶段

检测器选用 CRAFT，因为它能够表示字符区域的语义信息。CRAFT的输出是字符区域中心的概率和字符之间的关系。这个字符中心信息可以用来支持识别器中的attention模块，因为这两个模块都是为了定位字符的中心位置。为了达到更好的效果，对CRAFT进行了3处修改，分别是backbone更改、链接表示和方向估计。

Backbone replacement
最近的研究表明，无论是检测还是识别，ResNet50都能够得到更好的特征表示，所以替换VGG16为ResNet50。
Link representation
在拉丁文字中垂直文本不常见，但在东亚国家中经常出现垂直方向的文字。在之前的CRAFT中，在垂直文本上使用原始的affinity映射通常会产生错误的透视变换，从而产生无效的框坐标，所以在这部分，使用一个二值的中心线链接相邻的字符区域，以解决该问题。
在相邻字符之间生成一个宽度为 $t$ 的线段，作为linkmap的GT， $max((d_1 + d_2)/2 ∗ \alpha, 1)$ ， $d_1$ 和 $d_2$ 是相邻字符的对角线长度， $\alpha$ 是尺度系数。使用该公式可以使中心线的宽度与字符的大小成正比。 $\alpha$ 设置为0.1。
Orientation estimation
得到一个准确的文本框方向对于文本识别是至关重要的，于是，在检测阶段增加了2个通道的输出，这两个通道用来预测字符在水平和垂直方向的角度。
生成GT部分，字符框向上的角度记为 $\theta^*_{box}$