ECCV 2022 Oral | 白翔团队:用于场景文字识别的角点引导Transformer

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

转载自:CSIG文档图像分析与识别专委会

38c9f3fc914911b4845f4de5b9cd0782.png

Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition
论文:https://arxiv.org/abs/2208.00438

代码和数据集:https://github.com/xdxie/WordArt

本文简要介绍一篇ECCV 2022的Oral论文:Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition. 该论文首次探索了一个新的更具挑战性的任务:艺术文字识别,并构建了一个全部由艺术字图像组成的WordArt数据集。考虑到艺术字的特殊性,如字符形变大、字体复杂多样、字符间连笔与重叠严重等问题,文中引入角点图作为一种鲁棒的表示来捕获字符的结构不变性特征,同时设计了一个字符对比损失函数来隐式地学习每一类字符的共性特征。实验结果表明了该方法在艺术字识别任务中的优越性,同时,在一些模糊和透视文字数据集上也达到了最佳性能。 

一、研究背景

艺术字是一种由设计师或艺术家精心设计的美化文字,由各种风格的字体结合文字效果,同时融合背景元素而形成的。艺术字广泛出现在广告、标语、杂志、贺卡、展览中。然而,艺术文字识别是一个被忽略的却极具挑战性的任务:① 字符外观随着不同的字体、艺术设计效果和形变而产生极大的变化;② 字符间存在很多复杂的连接和重叠,使得识别过程很难关注到每一个独立的字符或笔画;③ 艺术字设计往往融合了背景元素,导致识别受背景干扰严重。然而,现有的场景文字识别模型很难直接胜任这项任务,规则文字识别方法无法处理各种形变和艺术效果,基于矫正的方法只能处理文本行形变而非字符形变,基于注意力的方法无法获得艺术字符的准确位置。手写文字识别模型所处理的场景虽然存在各种字体和连笔,但其背景十分单一且没有艺术特效。因此,有必要设计模型以学习更加鲁棒的、更具表示性的视觉特征。 

5ee1b7c3e618314d4f3a4a2ed28293c9.png

图1:WordArt数据集中不同类型的艺术字示例

二、研究动机

鉴于上述问题,本文从三个层面建模图像特征。(1)字符内部局部特征:为了显式地建立字符的不变性特征,文中引入角点来抑制外观和形变,同时利用角点图的离散性切断字符间的连接和覆盖,利用稀疏性抑制背景干扰。 

24e51a80e5e0117c379969dbac6f9aaf.png

图2:角点检测可视化,上面为艺术字图像的角点检测结果,下面为单个字符“M”的角点,虽然外观不同,但结构相近

(2)字符级特征:同一种字符的不同实例间巨大的视觉差异导致它们的特征在特征空间中分散分布,为了隐式地学习每一类字符的共性特征表示以提高字符识别性能,有必要让同类字符实例在特征空间中聚集,让不同类的实例彼此远离,因此本文设计了一个基于对比学习的损失函数实现这一目标。(3)图像级的全局特征:由于全局特征对文字识别任务至关重要,模型可以从上下文视觉和语义信息中推理出当前字符,因此本文引入Transformer模型建模艺术字图像的全局特征。

三、方法简述

给定一张图像,首先利用一个角点检测器生成一张角点图,然后分别送入两层卷积网络得到初级特征。一方面,图像的特征将通过多头自注意力机制进一步建模全局特征,另一方面,角点图的特征将通过多头交叉注意力机制与图像全局特征融合。编码器的输出和字符序列Embedding输入Transformer解码器获得特征序列,最终应用两个线性层分别计算两个损失。 

d39c12ce79e81aec5dda257f3e0ed462.png

图3:CornerTransformer的整体结构,由一个角点引导的编码器和一个Transformer解码器组成,由两种不同模态的表示作为输入。CE Loss是交叉熵损失,CC Loss是提出的字符对比损失函数。

1.角点引导的编码器

通常,对于一个特定字符,无论其外观发生怎么的变化,该字符的最关键的角点总是可以被检测到,而且角点之间形成的结构关系也总是相近的。这些点是图像中包含视觉信息最丰富的的位置。因此,本文利用角点图作为辅助输入提供一个不变性视觉特征。

具体地,对于输入图像,模型使用一个经典的角点检测器,Shi-Tomasi检测器生成角点图,该检测器改进了Harris Detector,可以提供更高质量更稳定的角点结果。角点图是一个和图像大小一致,单通道的稀疏矩阵,由大量0和少量1构成,其中值为1的位置表示该位置为角点。获得角点图后,考虑到角点间存在联系,首先使用卷积层建模角点之间的局部相关性,随后将角点和图像特征进行融合。文中采用了一种基于角点查询的交叉注意力机制,将图像特征作为Key和Value,将角点特征作为Query: 

6d4c06563dcb4360dd91b3c25e562e39.png

该方式可以让角点自动寻找它所感兴趣的图像特征点,让模型将更多的注意力集中于字符的位置。例如,对一个文本图像中的字符“A”,它的顶点的尖端位置更倾向于关注该字符的其他位置,而不是图像中的其他字符。

图4表明,引入该机制后,编码器可以准确地关注到每个字符的位置,尽管存在形变、连笔、弯曲等挑战,更重要的是,有时还可以关注到更加细粒度的特征比如字符笔画信息,尽管并没有提供任何字符级或笔画级的标注。 

7f491109b09c6aa1a90a042dd452f3f5.png

图4:编码器输出特征图可视化。第一行:输入图像;第二行:Baseline特征图;第三行:基于Baseline引入角点查询交叉注意力机制特征图

2.字符对比损失

艺术文字中同类字符的不同实例差异巨大,有必要在训练过程中为每一类字符学习一种统一的表示。受对比学习思想的启发,本文提出了一个字符对比损失(CC Loss),简言之,对于一个Minibatch中的一个字符,它的正样本为该Minibatch中与它同类别其他字符,负样本为其他不同类别的字符: 

3666f53df1def68324867e4cdc4ffe26.png

则模型完整的优化目标为: 

1892fb6c077c62a7f66539490ae077c2.png

图5表明,字符对比损失可以在特征空间中将每一类聚在一起,将不同类分离。 

dea341b1eb5edb67c53ce410e972b8cf.png

图5:编码器输出的字符特征分布

四、WordArt数据集

为了评估不同方法的艺术字识别性能,本文构建了一个艺术字识别数据集,包含6316张艺术字图像,其中训练集4804张,测试集1511张。图像来自海报、贺卡、封面、手写字等各种场景。 

12e40d0b76bdcf2da4dd203c0549e9df.png

图6:WordArt数据集统计信息,(a) 包含不同文本长度的图片数量 (b) 数据集中全部字符的频率分布

五、实验结果

1.消融实验

为了验证模型中每一部分设计的有效性,文中实施了四组实验,分别验证角点图的有效性、不同角点检测器对性能的影响、不同融合策略的影响以及字符对比损失中超参数的影响。实验结果表明,在去掉角点分支且维持参数量不变的情况下、以及把角点分支的输入换成其他输入时,都会造成性能损失;使用不同的角点检测器会对结果造成轻微差异,但都好于不使用角点的情况,而且模型对角点检测的质量具有一定的鲁棒性;传统常用的融合方式并不能充分发挥角点的作用,而角点查询机制可以显著改善模型性能;字符对比损失可以显著改善识别性能,但不同的超参数对该损失函数的影响较大,文中选取了一组近似最优的参数设置。 

f9b72c64b27cec9314d6bcf77d33e101.png

2.艺术字识别结果

文中对比了CornerTransformer与若干代表性的文字识别方法,得益于基于角点的设计和提出的损失函数,该方法实现了最佳的识别准确率。由图7可以看出,一些困难的样例也可以被成功识别,如包含复杂字体、连笔、极度弯曲和形变的艺术字。 

3e629a1f73101f6e72ff92ad50f4f548.png

9eecbef6f1465db11913f6f33cae5456.png

图7:WordArt数据集上的定性识别结果。每一张图下面依次是ABINet-LV的结果,本文使用的Baseline结果,CornerTransformer的结果

3.场景文字识别结果

为了进一步验证CornerTransformer的泛化性,本文在6个常用场景文字识别数据集上对比了十几种方法。值得一提的是,所提出的方法在SVT、SVTP、IC15上达到了SOTA的性能,这些数据集的共性是模糊、噪声严重、图像质量差,但是,基于梯度的角点检测对这些因素的干扰是鲁棒的。 

229507e6e8c4e05ea41f38d8bde6569f.png

六、总结

本文致力于艺术字识别这个新的挑战性任务,并提供了一个WordArt数据集。为了解决该任务面临的难点,作者引入了角点图作为一种鲁棒的表示,并设计了角点查询交叉注意力机制来让模型实现更准确的字符注意力。文章还提出了一个字符对比损失函数,来学习字符的不变性特征。实验结果表明了本文方法在艺术字和不规则、低质量场景文字识别中的优越性。作者希望WordArt数据集能够激励更先进的文字识别模型的出现,基于角点的设计可以为其他有挑战的识别任务提供灵感。

资源

论文链接:https://arxiv.org/abs/2208.00438

代码和数据集链接:https://github.com/xdxie/WordArt

相关文献

[1]Lee J, Park S, Baek J, et al. On recognizing texts of arbitrary shapes with 2D self-attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 546-547.

[2]Xu X, Zhang Z, Wang Z, et al. Rethinking text segmentation: A novel dataset and a text-specific refinement approach[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12045-12055.

[3]Khosla P, Teterwak P, Wang C, et al. Supervised contrastive learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 18661-18673.

[4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[5]Shi J, Tomasi C. Good features to track[C]//1994 Proceedings of IEEE conference on computer vision and pattern recognition. IEEE, 1994: 593-600.

[6]Fang S, Xie H, Wang Y, et al. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.

[7]Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.

[8]Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048.


原文作者:Xudong Xie, Ling Fu, Zhifei Zhang, Zhaowen Wang, and Xiang Bai

撰稿:谢旭东 编排:高 学

审校:连宙辉  发布:金连文


免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

 
 

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
 
 
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值