摘要
我们提出了一个新型的单镜头文本检测器,它直接在一张自然图片中输出单词级别的包围盒。我们提议了一种注意力机制,它可以通过一种自动学习注意力的图来大致上识别出上下文区域。这种方法基本上抑制了在卷积特征上的背景干扰,这是产生单词精确推断的关键,尤其是在一个非常小的尺度上。这就导致了一个根本上以由粗到细的方式运行的单一模型。这背离了最近基于FCN的串联多个FCN模型来获得一个精确的预测的文本检测器。此外,我们开发了一个分级起始模块,它可以有有效地聚集多个尺度的起始特征,这就加强例如本地细节,同时编码强壮的上下文信息