CVPR 2020
论场景文本识别中的词汇依赖性
[1].On Vocabulary Reliance in Scene Text Recognition
作者 | Zhaoyi Wan, Jielei Zhang, Liang Zhang, Jiebo Luo, Cong Yao
单位 | 旷视;中国矿业大学;罗切斯特大学
[2].SCATTER: Selective Context Attentional Scene Text Recognizer
作者 | Ron Litman, Oron Anschel, Shahar Tsiper, Roee Litman, Shai Mazor, R. Manmatha
单位 | Amazon Web Services
语义推理网络,用于场景文本的精确识别
[3].Towards Accurate Scene Text Recognition With Semantic Reasoning Networks
作者 | Deli Yu, Xuan Li, Chengquan Zhang, Tao Liu, Junyu Han, Jingtuo Liu, Errui Ding
单位 | 国科大;百度;中科院
代码 | https://github.com/chenjun2hao/SRN.pytorch
语义增强的编解码框架,用于识别低质量图像(模糊、光照不均、字符不完整等)场景文本
[4].SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
作者 | Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang
单位 | 中科院;国科大
代码 | https://github.com/Pay20Y/SEED
ECCV 2020
【1】RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition
文章旨在解决基于注意框架的编码器对无上下文文本图像的误识别问题。研究了解码过程,发现在解码过程中,注意的查询向量包含位置和上下文信息,随着解码时间的增加,位置线索变弱,上下文线索变强。基于这一发现,我们提出了一种用于场景文本识别的RobustScanner,它包含一个混合分支和一个位置增强分支,并在解码过程中的每个时间步动态地融合这两个分支。另外,我们提出了一种新颖的位置感知模块,可以增强其位置感知能力。
【2】PlugNet: Degradation Aware Scene Text Recognition Supervised by a Pluggable Super-Resolution Unit
论文显著提升了通用文本识别方法在低质量文本上的识别效果,并在更加广泛的通用文本基线数据集中取得了目前最佳的性能。
PlugNet的主要贡献在于:
1、利用特征级超分辨学习来增加用于识别特征的鉴别能力,进而提升文本识别结果的精度。
2、针对原始文本识别方法使用CNN压缩图像分辨率的问题,提出了使用特征压缩模块进行替代,尽可能的更好的保留特征原始的空间特性。
3、算法训练时间无显著增加,推理时间不变的情况下,低质量图像精度显著提升,非常有利于对实时和精度要求较高的应用场景。
[3] Sence Text Imang Super-Resolution in the Wild
公开了一个真实的超分数据集,提出了一个超分辨率(SR)技术作为预处理,来提高文字识别的精度。针对自然场景中低分辨率图像提升较多。
端到端的检测与识别
实时端到端场景文本识别
[1].ABCNet: Real-Time Scene Text Spotting With Adaptive Bezier-Curve Network
作者 | Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, Liangwei Wang
单位 | 华南理工大学;阿德莱德大学;
代码 | https://github.com/Yuliang-Liu/bezier_curve_text_spotting
备注 | CVPR 2020 Oral
解读 | https://zhuanlan.zhihu.com/p/146276834
【2】CRAFTS:用于场景文本检测和识别的字符区域注意力
Character Region Attention For Text Spotting
CRAFTS 表现SOTA!性能优于CharNet、MaskTextSpotter等网络
场景text spotter由文本检测和识别模块组成。已经进行了许多研究,以将这些模块统一为端到端的可训练模型,以实现更好的性能。典型的体系结构将检测和识别模块放置在单独的分支中,并且RoI池化通常用于让分支共享视觉特征。但是,当采用识别器时,仍存在在模块之间建立更互补的连接的机会,该识别器使用基于注意力的解码器和代表字符区域空间信息的检测器。这是可能的,因为两个模块共享一个共同的子任务,该任务将查找字符区域的位置。
基于这些insights,我们构建了紧密耦合的单一pipeline模型。通过利用识别器中的检测输出并在检测阶段传播识别损失来形成此体系结构。字符得分图的使用有助于识别器更好地关注字符中心点,并且识别损失向检测器模块的传播会增强字符区域的定位。此外,增强的共享阶段允许对任意形状的文本区域进行特征校正和边界定位。
【3】Mask TextSpotter v3:用于场景文字检测和识别的分割Proposal网络
作者团队:华中科大(白翔团队)&Facebook AI
代码:MhLiao/MaskTextSpotterV3
论文:Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting
当前大多数任意形状的场景文本 spotters都使用RPN来生成 proposals,RPN严重依赖手动设计的anchor,其proposals以与轴对齐的矩形表示。前者在处理极高宽高比或不规则形状的文本实例时会遇到困难,而在面向密集文本的情况下,后者通常会在一个proposal中包含多个相邻实例。为解决这些问题,我们提出了Mask TextSpotter v3,这是一种采用分割proposal网络(SPN)而不是RPN的端到端可训练场景文本观察器。我们的SPN是 anchor-free,可以准确表示任意形状的proposals。因此,它在检测极高宽高比或不规则形状的文本实例方面优于RPN。此外,由SPN生成的准确proposals允许将masked RoI 特征用于解耦相邻的文本实例。因此,我们的Mask TextSpotter v3可以处理具有高长宽比或不规则形状的文本实例,并且其识别精度不会受到附近文本或背景噪声的影响。