ECCV 2022 Oral | 理解艺术字：用于场景文字识别的角点引导Transformer

最新推荐文章于 2024-10-30 17:15:56 发布

我爱计算机视觉

最新推荐文章于 2024-10-30 17:15:56 发布

阅读量1k

点赞数 1

文章标签：算法 python 计算机视觉机器学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247602062&idx=2&sn=b9920b90f40a0f5e407c6f6a537e5a46&chksm=96f13ddaa186b4cc53ce07e75ab979dd969901d8fdf055c8e21c56d702d1dcc9a1d74c3cac6b&scene=126&&sessionid=0

版权

关注公众号，发现CV技术之美

本文简要介绍一篇 ECCV 2022 的Oral论文：Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition。该论文首次探索了一个新的更具挑战性的任务：艺术文字识别，并构建了一个全部由艺术字图像组成的WordArt数据集。

考虑到艺术字的特殊性，如字符形变大、字体复杂多样、字符间连笔与重叠严重等问题，文中引入角点图作为一种鲁棒的表示来捕获字符的结构不变性特征，同时设计了一个字符对比损失函数来隐式地学习每一类字符的共性特征。实验结果表明了该方法在艺术字识别任务中的优越性，同时，在一些模糊和透视文字数据集上也达到了最佳性能。

论文链接：https://arxiv.org/abs/2208.00438
代码和数据集链接：https://github.com/xdxie/WordArt

研究背景

艺术字是一种由设计师或艺术家精心设计的美化文字，由各种风格的字体结合文字效果，同时融合背景元素而形成的。艺术字广泛出现在广告、标语、杂志、贺卡、展览中。然而，艺术文字识别是一个被忽略的却极具挑战性的任务：

① 字符外观随着不同的字体、艺术设计效果和形变而产生极大的变化；② 字符间存在很多复杂的连接和重叠，使得识别过程很难关注到每一个独立的字符或笔画；③ 艺术字设计往往融合了背景元素，导致识别受背景干扰严重。

然而，现有的场景文字识别模型很难直接胜任这项任务，规则文字识别方法无法处理各种形变和艺术效果，基于矫正的方法只能处理文本行形变而非字符形变，基于注意力的方法无法获得艺术字符的准确位置。手写文字识别模型所处理的场景虽然存在各种字体和连笔，但其背景十分单一且没有艺术特效。因此，有必要设计模型以学习更加鲁棒的、更具表示性的视觉特征。

图1：WordArt数据集中不同类型的艺术字示例

研究动机

鉴于上述问题，本文从三个层面建模图像特征。

¹字符内部局部特征：为了显式地建立字符的不变性特征，文中引入角点来抑制外观和形变，同时利用角点图的离散性切断字符间的连接和覆盖，利用稀疏性抑制背景干扰。

图2：角点检测可视化，上面为艺术字图像的角点检测结果，下面为单个字符“M”的角点，虽然外观不同，但结构相近

²字符级特征：同一种字符的不同实例间巨大的视觉差异导致它们的特征在特征空间中分散分布，为了隐式地学习每一类字符的共性特征表示以提高字符识别性能，有必要让同类字符实例在特征空间中聚集，让不同类的实例彼此远离，因此本文设计了一个基于对比学习的损失函数实现这一目标。

³图像级的全局特征：由于全局特征对文字识别任务至关重要，模型可以从上下文视觉和语义信息中推理出当前字符，因此本文引入Transformer模型建模艺术字图像的全局特征。

方法简述

给定一张图像，首先利用一个角点检测器生成一张角点图，然后分别送入两层卷积网络得到初级特征。一方面，图像的特征将通过多头自注意力机制进一步建模全局特征，另一方面，角点图的特征将通过多头交叉注意力机制与图像全局特征融合。编码器的输出和字符序列embedding输入Transformer解码器获得特征序列，最终应用两个线性层分别计算两个损失。

图3：CornerTransformer的整体结构，由一个角点引导的编码器和一个Transformer解码器组成，由两种不同模态的表示作为输入。CE loss是交叉熵损失，CC loss是提出的字符对比损失函数。

3.1.角点引导的编码器

通常，对于一个特定字符，无论其外观发生怎么的变化，该字符的最关键的角点总是可以被检测到，而且角点之间形成的结构关系也总是相近的。这些点是图像中包含视觉信息最丰富的的位置。因此，本文利用角点图作为辅助输入提供一个不变性视觉特征。

具体地，对于输入图像，模型使用一个经典的角点检测器，Shi-Tomasi检测器生成角点图，该检测器改进了Harris detector，可以提供更高质量更稳定的角点结果。角点图是一个和图像大小一致，单通道的稀疏矩阵，由大量0和少量1构成，其中值为1的位置表示该位置为角点。获得角点图后，考虑到角点间存在联系，首先使用卷积层建模角点之间的局部相关性，随后将角点和图像特征进行融合。文中采用了一种基于角点查询的交叉注意力机制，将图像特征作为key和value，将角点特征作为query：

该方式可以让角点自动寻找它所感兴趣的图像特征点，让模型将更多的注意力集中于字符的位置。例如，对一个文本图像中的字符“A”，它的顶点的尖端位置更倾向于关注该字符的其他位置，而不是图像中的其他字符。

图4表明，引入该机制后，编码器可以准确地关注到每个字符的位置，尽管存在形变、连笔、弯曲等挑战，更重要的是，有时还可以关注到更加细粒度的特征比如字符笔画信息，尽管并没有提供任何字符级或笔画级的标注。

图4：编码器输出特征图可视化。第一行：输入图像；第二行：Baseline特征图；第三行：基于Baseline引入角点查询交叉注意力机制特征图

3.2.字符对比损失

艺术文字中同类字符的不同实例差异巨大，有必要在训练过程中为每一类字符学习一种统一的表示。受对比学习思想的启发，本文提出了一个字符对比损失（CC loss），简言之，对于一个minibatch中的一个字符，它的正样本为该minibatch中与它同类别其他字符，负样本为其他不同类别的字符：

则模型完整的优化目标为：

图5表明，字符对比损失可以在特征空间中将每一类聚在一起，将不同类分离。

图5：编码器输出的字符特征分布

WordArt数据集

为了评估不同方法的艺术字识别性能，本文构建了一个艺术字识别数据集，包含6316张艺术字图像，其中训练集4804张，测试集1511张。图像来自海报、贺卡、封面、手写字等各种场景。

图6：WordArt数据集统计信息，(a) 包含不同文本长度的图片数量 (b) 数据集中全部字符的频率分布

实验结果

5.1.消融实验

为了验证模型中每一部分设计的有效性，文中实施了四组实验，分别验证角点图的有效性、不同角点检测器对性能的影响、不同融合策略的影响以及字符对比损失中超参数的影响。

实验结果表明，在去掉角点分支且维持参数量不变的情况下、以及把角点分支的输入换成其他输入时，都会造成性能损失；使用不同的角点检测器会对结果造成轻微差异，但都好于不使用角点的情况，而且模型对角点检测的质量具有一定的鲁棒性；传统常用的融合方式并不能充分发挥角点的作用，而角点查询机制可以显著改善模型性能；字符对比损失可以显著改善识别性能，但不同的超参数对该损失函数的影响较大，文中选取了一组近似最优的参数设置。

5.2. 艺术字识别结果

文中对比了CornerTransformer与若干代表性的文字识别方法，得益于基于角点的设计和提出的损失函数，该方法实现了最佳的识别准确率。由图7可以看出，一些困难的样例也可以被成功识别，如包含复杂字体、连笔、极度弯曲和形变的艺术字。

图7：WordArt数据集上的定性识别结果。每一张图下面依次是ABINet-LV的结果，本文使用的baseline结果，CornerTransformer的结果

5.3. 场景文字识别结果

为了进一步验证CornerTransformer的泛化性，本文在6个常用场景文字识别数据集上对比了十几种方法。值得一提的是，所提出的方法在SVT、SVTP、IC15上达到了SOTA的性能，这些数据集的共性是模糊、噪声严重、图像质量差，但是，基于梯度的角点检测对这些因素的干扰是鲁棒的。

总结

本文致力于艺术字识别这个新的挑战性任务，并提供了一个WordArt数据集。为了解决该任务面临的难点，作者引入了角点图作为一种鲁棒的表示，并设计了角点查询交叉注意力机制来让模型实现更准确的字符注意力。文章还提出了一个字符对比损失函数，来学习字符的不变性特征。

实验结果表明了本文方法在艺术字和不规则、低质量场景文字识别中的优越性。作者希望WordArt数据集能够激励更先进的文字识别模型的出现，基于角点的设计可以为其他有挑战的识别任务提供灵感。

相关文献

[1]Lee J, Park S, Baek J, et al. On recognizing texts of arbitrary shapes with 2D self-attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 546-547.

[2]Xu X, Zhang Z, Wang Z, et al. Rethinking text segmentation: A novel dataset and a text-specific refinement approach[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12045-12055.

[3]Khosla P, Teterwak P, Wang C, et al. Supervised contrastive learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 18661-18673.

[4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[5]Shi J, Tomasi C. Good features to track[C]//1994 Proceedings of IEEE conference on computer vision and pattern recognition. IEEE, 1994: 593-600.

[6]Fang S, Xie H, Wang Y, et al. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.

[7]Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.

[8]Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048.

END