1. 前言
这篇文章是我最早读的模型类文章,但是当时还没萌生出写博客复习总结的想法。还好这个想法出现的不晚,现在是第四篇模型类文章,刚好拿来复习一下。当时读的时候就觉得作者字里行间充满了自信(可能是因为EAST模型的效果真的很好吧),EAST这名字又有种东方的神秘气息(误),话不多说,还是开始介绍吧。
EAST全名an Efficient and Accuracy Scene Text detection pipeline,高效、准确的场景文本识别管道(不得不说这缩写真的好中二啊)。该Pipeline直接预测图像中任意方向和矩形形状的文本或文本行,通过单个神经网络消除不必要的中间步骤(例如候选聚合和单词分割)。
三个贡献:
- 提出了一个由两阶段组成的场景文本检测方法:FCN阶段和NMS阶段。FCN直接生成文本区域,不包括冗余和耗时的中间步骤。
- 该pipeline可灵活生成wordlevel或line level预测,其几何形状可为旋转框或矩形。
- 所提出的算法在准确性和速度上明显优于最先进的方法。
常规的文本检测Pipeline都含有很多中间步骤,而这些中间步骤会导致误差的累积,性能次优,且处理时间较长。本文提出的方法,只有FCN和NMS两个中间步骤,放弃了不必要的中间组件和步骤,并允许进行端到端的训练和优化。由此产生的框架是轻量级的单个神经网络,在性能和速度上都明显优于所有以前的方法。
2. 实现
该算法的关键部分是一个神经网络模型,该模型通过训练直接预测图形中的文本实例及其几何形状的存在。该模型是一种完全卷积神经网络,适用于文本检测,输出密集的每像素的词或文本行。这就消除了中间步骤如候选人提议,文本区域形成和分区。后处理步骤仅包括阈值化和预测几何形状的NMS。由于该检测器是一种高效、准确的场景文本检测管道,故将其命名EAST。
2.1 Pipeline
图像被送到FCN中并且生成像素级的文本分数特征图和几何图形特征图的多个通道。其中一个预测通道是分数特征图,其像素值范围是[0,1]。剩下的通道表示从每个像素视图中包含单词的几何图形。分数代表在同一位置预测的几何形状的置信度。
两种文本区域的几何形状:旋转框(RBOX)和矩形(QUAD)。
2.2 网络设计
- 特征提取层:先用通用网络如VGG16,Pvanet,Resnet等作为基础网络(文中用的是Pvanet),用于特征提取。抽取不同大小的Feature map(输出图像的 1 32 , 1 16 , 1 8 , 1 4 \frac{1}{32},\frac{1}{16},\frac{1}{8},\frac{1}{4} 321,