Introduction:
- 传统文本检测方法步骤:
1) character/word candidate generation:候选词的产生
2) Candidate filtering:候选词过滤
3) grouping:分组 - 弊端:需要保证每一个模型都正常工作,从而需要耗费大量精力调参和设计启发式规则,这同样也会减慢检测速度
- 本文:通过一个端对端训练的单一神经网络直接预测单词bounding box来检测文本
Contributions:
高速准确的文本检测器:TextBoxes。通过整合预测文本出现位置(text presence)和相对于default boxes(SSD)的坐标偏移量在多个网络层直接输出word bounding boxes的坐标。最终的输出是boxes的聚合,再使用一个标准的非极大值抑制步骤。为了处理大量不同宽高比的单词,我们设计了几个novel,inception-style的输出层,可以利用不规律(irregular)的卷积核和default boxes
单词识别(word recognition)有助于从背景中区分文本,尤其是当单词被限定再一个给定的集合中时,比如一个词典(lexicon)。故本文采用成功的文本识别算法,CRNN与TextBoxes结合。识别器不仅提供额外的识别输出,还使文本检测具有了语义水平的意思,从而大大提高了单词识别(word spotting)的准确度
TextBoxes与CRN