架构简单,专注于loss函数和网络架构的设计。在ICDAR15, COCO-Text,MSRA-TD500上进行实验,表明体术的方法在准确率和效率上都最为先进,在ICDAR15数据集上,算法实现了F-score 0.7820和13.2的fps在720p的分辨率下。
文本检测任务的核心是设计区分文本和背景的特征。传统方法手工提取特征,深度学习方法直接从训练数据中学习有效的特征。现有方法大多有许多阶段,准确率和效率不佳。
本文中,提出一个快且准确的场景文本检测通道,仅由两个通道构成。通道利用全卷积网络FCN模型直接产生单词或文本行层级的预测,排除中间步骤。可以产生旋转矩形或四边形的预测,接下来通过NMS获得最终结果。
FCN + NMS
旋转矩形 或 四边形 依据特定的应用
本文提出了一个基于深度全卷积神经网络的通道。
方法:方法的关键组成部分是一个神经网络模型,直接预测文本实例的存在和几何形状。模型是一个全卷积神经网络,输出密集的逐像素的单词或文本行的预测。后续处理为在预测的几何形状上进行阈值和NMS处理。
通道:采用了DenseBox的设计,一张图片输入到FCN的网络中,生成像素级的得分和几何预测。
网络需要使用不同层级的特征。采用了一个u形设计来融合特征图。
与DenseBox相同,四个通道表示了像素点到top,right,bottom,left边的偏移量。对于四边形,表示到四个角点的偏移量。
标签生成:score map 分别向内移动0.3ri
score map 类平衡交叉熵 loss function
几何loss 四边形采用IOU loss
几何形状采用 尺度规范化的平滑L1loss
位置感知的NMS
假设临近像素的几何图形往往高度相关,我们提出在行相同的情况下,逐行融合几何图形,我们迭代的将当前几何图形与最后一个遇到的几何图形进行合并。