日常阅读论文
名词解释:
注意力漂移attention drift:由于低质量(如模糊,污损和噪音等)图片和一些复杂图片(如扭曲或者重叠字符,不同字符,不用尺寸,不同颜色或者复杂的背景)的影响,模型在glimpse vector的整合上没有对齐约束,产生不正确的alignment factor,导致注意力区域和标签区域错误匹配,就是所谓的attention drift。
————————————————
文章目录
make decision
-
论文名称::TextScanner: Reading Characters in Order for Robust Scene Text Recognition
文本扫描仪:读取字符以便进行可靠的场景文本识别 -
作者:Zhaoyi Wan, Minghang He, Haoran Chen, Xiang Bai, Cong Yao
-
机构:旷视科技,华中科技大学,北京理工大学,
-
年份:2020
-
是否精读:否,泛读
-
做出决定日期:2021-7-27
step1:读摘要
在深度学习和大量数据的驱动下,场景文本识别近年来发展迅速。以前,RNN-attention-based的方法在这个领域占主导地位,但在某些情况下会出现注意力漂移attention drift 的问题。
最近,基于语义分割的算法在识别不同形式(水平、定向和弯曲)的文本方面被证明是有效的。然而,这些方法可能会产生伪字符或遗漏真实字符,因为它们严重依赖于对分割图进行的阈值处理。
为了应对这些挑战,我们在本文中提出了一种替代方法,称为textscanner,用于场景文本识别。
TextScanner具有三个特点:
- (1)基本上,它属于语义分割家族,因为它为字符类、位置和顺序生成像素级、多通道分割图;
- (2)同时,与基于RNN注意的方法类似,它也采用RNN进行上下文建模;
- (3)此外,它对字符位置和类别执行并行预测,并确保以正确的顺序转录字符。
在标准基准数据集上的实验表明,textscanner优于最先进的方法。此外,TextScanner在识别更难的文本(如中文成绩单)和与目标字符对齐方面显示了其优势。
step2:读Introduction
在过去的几十年里,场景文本检测和识别由于其广泛的应用,已经引起了计算机视觉领域的极大关注,例如,自动驾驶(Graves等人,2006年)、视觉辅助(Ghosh,V alveny,Bagdanov,2017年)和人机交互(Wang等人,2012年)。由于场景文本提供了关键和具体的信息,文本的准确识别在各种现实场景中起着至关重要的作用(Phan等人,2013年)。
在最先进的场景文本识别方法中,有两种流行的范例:
- RNN-attention-based methods 将图像编码为特征,并采用注意力机制来对齐和解码字符。
(Cheng, Z.; Xu, Y .; Bai, F.; Niu, Y .; Pu, S.; and Zhou, S. 2018. AON:
towards arbitrarily-oriented text recognition. In CVPR 2018, Salt
Lake City, UT, USA, June 18-22, 2018, 5571–5579.)
(Shi, B.; Wang, X.; Lyu, P .; Yao, C.; and Bai, X. 2016. Robust scene
text recognition with automatic rectification. In CVPR, 4168–4176.) - ematic segmentation based algorithms。从2d角度探讨文本识别,首先采用全卷积网络(FCN)进行语义分割,然后在分割图中寻找连通分量,最后推断每个连通分量的类别(每个都作为一个字符)。
动力:
本质上,为了正确识别裁剪文本图像中的内容,应该准确预测字符的数量以及每个字符的顺序和类别。在大多数情况下,基于RNN注意力的方法通常效果很好。然而,当背景中存在噪声或不规则文本形状时,注意机制可能会失败,即估计的注意图的中心指向错误的位置,导致字符顺序和类别的错误(见图1)。更严重的是,由于RNN模块中反复出现的记忆机制,这种错误将会积累和传播,使情况更加糟糕。
- 基于注意的方法可能会遇到注意漂移的问题(Cheng等人,2017)(见红色矩形),从而导致对字符类的错误预测。在基于语义分割的算法中,对连接组件的搜索依赖于阈值操作,该操作易于过度分割或分割不足,从而产生虚假字符或丢失真实字符(参见红色矩形)。相比之下,文本扫描仪会逐个扫描字符,并确保字符以正确的顺序读取并正确分隔。
基于语义分割的算法探索了一种不同的方式,并对不同形状(水平、定向和弯曲)的文本表现出更强的适应性。然而,很难成功地将每个字符从分割图中分离出来,因为不适当的二值化将导致这样的尴尬:一个字符可能被分割成多个部分,或者多个字符可能粘在一起(见图1)。在这些情况下,对字符数量和类别的预测将是错误的。总之,现有的方法,无论是基于RNN注意还是基于语义分割,都不能很好地解决场景文本识别中的困难。
基于注意力的方法中注意力漂移问题的根本原因可能是对齐操作(通过注意力图实现)依赖于视觉特征和先前的解码结果。这两种类型的信息之间可能会发生相互干扰。因此,有必要在独立的分支中执行字符对齐和分类。关于基于语义分割的算法,可以通过简单的二值化来寻找字符的假设在具有挑战性的场景中不成立。为了解决这个问题,一个自然可行的解决方案是用不同的通道来表示字符的位置和