20190610-20190614
论文题目:
An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition
摘要:
基于图像的序列识别一直是计算机视觉中长期存在的研究课题。在本文中,我们研究了场景文本识别的问题,这是基于图像的序列识别中最重要和最具挑战性的任务之一。提出了一种将特征提取,序列建模和转录整合到统一框架中的新型神经网络架构。与以前的场景文本识别系统相比,所提出的架构具有四个不同的特性:
(1)与大多数现有的组件需要单独训练和协调的算法相比,它是端对端训练的。
(2)它自然地处理任意长度的序列,不涉及字符分割或水平尺度归一化。
(3)它不仅限于任何预定义的词汇,并且在无词典和基于词典的场景文本识别任务中都取得了显著的表现。
(4)它产生了一个有效而小得多的模型,这对于现实世界的应用场景更为实用。在包括IIIT-5K,Street View Text和ICDAR数据集在内的标准基准数据集上的实验证明了提出的算法比现有技术的更有优势。
此外,提出的算法在基于图像的音乐得分识别任务中表现良好,这显然证实了它的泛化性。
网络结构:
数据集:(来源于其他论文中)
有四个流行的基准数据集用于场景文本识别的性能评估,即ICDAR 2003(IC03),ICDAR 2013(IC13),IIIT 5k-word(IIIT5k)和Street View Text (SVT)。
(1)IC03测试数据集包含251个具有标记文本边界框的场景图像。我们忽略包含非字母数字字符或少于三个字符的图像,并获得具有860个裁剪的文本图像的测试集。每张测试图像与由Wang等人[34]定义的50词的词典相关联。通过组合所有的每张图像词汇构建完整的词典。此外,我们使用由Hunspell拼写检查字典[1]中的单词组成的5万个词的词典。
(2)IC13测试数据集继承了IC03中的大部分数据。它包含1015个实际的裁剪单词图像。
(3)IIIT5k包含从互联网收集的3000张裁剪的词测试图像。每张图像关联一个50词的词典和一个1000词的词典。
(4)SVT测试数据集由从Google街景视图收集的249张街景图像组成。从它们中裁剪出了647张词图像。每张单词图像都有一个由Wang等人定义的50个词的词典。
2019年度论文阅读
最新推荐文章于 2020-04-22 17:38:47 发布