针对多朝向场景文本检测的fused text segmentation networks
摘要
本文我们介绍了一种新的端对端框架,基于instance-aware视角的分割来解决多朝向场景文本检测。我们提出fused text segmentation 网络,该网络在特征提取阶段结合了多层次特征,因为文本instance与通用目标检测相比依赖于更细的特征表达。该网络将检测和分割文本instance联合一起做,利用基于语义分割和region proposal的目标检测任务两者的优点。不包含任何其他的流程,我们的方法成为多朝向场景文本检测(ICDAR2015随机场景文本和MSRA-TD500)的最佳,hmean值分别达到84.1%和82%。这说明了该方法的有效性。
introduction
最近,场景文本检测吸引了很多计算机视觉和机器学习社区的关注。受许多基于内容的图像应用的驱动,比如photo translation 和 receipt content recognition,文本检测已经成为学术界和工业界热门且具有挑战性的研究领域。在自然图像中检测文本是很难的,因为文本和背景在野外都是很复杂的,而且常常会受遮挡和不可控的光照条件所干扰。
之前的文本检测方法[4][6][1][39][15]已经达到较好的结果。文本检测中本质的问题是用区分度高的特征来表示文本区域。传统上,手动设计的特征捕捉文本区域的性质,如纹理和形状。但是在过去几年里,基于深度学习的方法[14][16][15][7][44][22]直接从训练数据中学习hierarchical 特征,在不同的benchmark上如ICDAR系列比赛中获得了更准确更有效的结果。
已有的方法[16][14][15][22]在水平或接近水平的文本检测问题上取得了相当好的效果。然而水平文本检测受轴平行矩形框真值的限制,多朝向文本并不局限于特定的旋转方向并且通常用四边形作标注。因为这种不受限的情况,和水平场景文本检测榜相比,ICDAR15第四个比赛(随机场景文本定位)取得相对较低的准确率。
最近,有一些方法提出来解决多朝向文本检测。总体上来看,可分为四种不同的方法。
- Region based: