摘要
本文提出了一种端到端可训练的快速场景文本检测器,名为TextBoxes,它可以在单个网络正向通道中以高精度和高效率检测场景文本,除标准非最大抑制外,不涉及后处理。TextBoxes在文本定位精度方面优于其他竞争方法,并且速度更快,每张图片只需0.09s便可快速实现。此外,与文本识别器相结合,TextBoxes明显优于最先进的文字识别和端到端文本识别任务。
1、引言
场景文本是自然场景中最普遍的视觉对象之一。 它经常出现在道路标志,车牌,产品包等中。阅读场景文字有助于实现许多有用的应用程序,例如基于图像的地理定位。尽管与传统OCR相似,但由于前景文本和背景对象的大量变化以及不可控制的光照条件等,场景文本阅读更具挑战性。
由于不可避免的挑战和复杂性,传统的文本检测方法倾向于涉及多个处理步骤,例如, 字符/单词候选生成(Neumann and Matas 2012; Jaderberg et al。2016),候选过滤和分组。他们经常最终努力让每个模块正常工作,需要很多努力来调整参数和设计启发式规则,同时也放慢了速度 检测速度。受目标检测最新发展的启发(Liu et al。2016; Ren et al。2015),我们建议通过一个端到端可训练的单一神经网络直接预测字边界框来检测文本。
我们在本文中的主要贡献是一个快速和准确的文本检测器,称为TextBoxes,它基于完全卷积网络(LeCun et al。1998)。文本框通过联合预测文本存在和协调偏移到默认框(Liu et al。2016)直接输出多个网络层的文字边界框的坐标。最后的输出是所有框的聚合,然后是标准的非最大抑制过程。为了处理词汇纵横比的巨大变化,我们设计了几种新颖的初始样式(Szegedy et al。2015)输出层,它们利用不规则卷积核和默认盒。我们的检测器既能提供高精度和高效率,而且在单量程输入上只有一个正向通道,而且在多量程输入上具有多个通道,甚至具有更高的精度。此外,我们认为文字识别有助于将文本与背景进行区分,特别是当单词被限制在给定集合(即词典)时。我们采用成功的文本识别算法CRNN(Shi,Bai和Yao2015)与TextBoxes结合。识别器不仅提供了额外的识别输出,而且通过其语义级别的意识来规范文本检测,从而进一步提高了文字识别的准确性。TextBoxes和CRNN的组合产生