abstract:
- 在卷积特征图中用一系列fine-scale text proposals来直接检测文本行
- 垂直anchor机制,同时预测每一个固定宽度proposal的位置和文本/非文本分数
- 使用RNN,以获取上下文信息来提高检测正确率
- multi-scale and multi-language text reliable,无需额外后处理
introduction:
- motivation:
- 深度CNN在目标检测上的发展,如Faster Region-CNN(R-CNN,提出RPN,从卷积特征图直接生成高质量的无类别目标proposals)
- 目标检测与文本行检测的区别:
- 一般目标具有大致轮廓/中心点
- 文本行没有相对固定的长度
- contribution:
- 将文本检测问题转化为fine-scale text proposals序列的定位问题。提出垂直anchor机制,同时预测每一个固定宽度proposal的位置和文本/非文本分数。
- 提出in-network recurrence mechanism,连接卷积特征图中的sequential text proposals。
- 将上述两个方法无缝整合,得到端到端可训练模型,一次操作可以处理多尺度多语言文本,避免的更多的后处理