Mask Text Spotter v3:分割建议网络用于健壮的场景文本端到端识别。
摘要
大部分现存的任意形状文本检测识别器使用RPN生产proposals。RPN高度依赖手工设计的anchors并且他的建议是用轴对齐的矩形表示。前者在处理极端长宽比和不规则形状的文本实例时较为困难,后者通常在一个建议中包含多个相邻的文本实例,在密集的多方向文本的情况下。为了解决这些问题,我们提出了Mask Text Spotter v3,一个端到端可训练的场景文本识别器采用了Segmentation Proposal Network(SPN)代替RPN。我们的SPN时anchor-free的并且可以提供对任意形状建议的准确表述。因此,他在检测极高长宽比或不规则形状的文本实例时优于RPN。除此之外,由SPN产生的准确建议允许使用masked RoI特征用于相邻文本实例的解耦。作为结果,我们的Mask Spotter v3可以处理极端长宽比和任意形状的文本实例。他的识别准确率不会被邻近的文本或背景噪音影响。在ICDAR13比最先进的方法高21.9%,在Total-Text上高出5.9%
介绍
最近流行的趋势是通过组合检测和识别成为一个整体模型来进行场景文本识别。因为两个任务十分相关。Mask TextSpotter系列采用RPN生成建议并且提取建议的RoI特征用于检测和识别。然而,这些方法的架构并没有被设计成对旋转、高宽比和形状具有完全鲁棒性。虽然这些方法可以处理各种方向和形状的分散文本实例,但由于RPN的限制,它们可能无法处理面向密集的文本实例或具有极高长宽比的文本行。
RPN的局限性主要表现在两个方面:(1)手工预先设计的锚点是使用轴对齐的矩形来定义的,这些矩形无法轻松匹配极端长宽比的文本实例。(2)当文本实例密集定位时,生成的轴向矩形建议可以包含多个相邻的