An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to S

基于图像序列识别的端到端可训练神经网络及其应用 场景文本识别的应用

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

摘要:

基于图像的序列识别一直是计算机视觉领域的一个长期研究课题。在本文中,我们研究了场景文本识别的问题,这是基于图像的序列识别中最重要和最具挑战性的任务之一。提出了一种新颖的神经网络结构,它将特征提取,序列建模和转录集成到一个统一的框架中。与先前的场景文本识别系统相比,所提出的架构具有四个不同的特性:(1)它是端到端可训练的,与大多数现有算法相比,其组件是分别训练和调整的。 (2)它自然地处理任意长度的序列,不涉及字符分割或水平标度归一化。 (3)它不局限于任何预定义的词典,并且在无词典和词典的场景文本识别任务中都取得了显着的表现。 (4)它生成一个有效但小得多的模型,这对于现实世界的应用场景更为实用。标准基准测试的实验,包括IIIT-5K,街景文本和ICDAR数据集,证明了所提出的算法优于现有技术的优越性。此外,该算法在基于图像的乐谱识别任务中表现良好,显然验证了它的一般性。

1. 引言:

最近,社区已经看到神经网络的强烈复兴,这主要受到深度神经网络模型,特别是深度卷积神经网络(DCNN)在各种视觉任务中的巨大成功的刺激。然而,最近与深度神经网络相关的大多数工作都致力于对象类别的检测或分类[12,25]。在本文中,我们对计算机视觉中的经典问题进行了研究:基于图像的序列识别。在现实世界中,稳定的视觉对象,例如场景文本,手写和乐谱,往往以序列的形式出现,而不是以孤立的形式出现。与一般对象识别不同,识别这种类似序列的对象通常需要系统预测一系列对象标签,而不是单个标签。因此,对这些对象的识别可以自然地作为序列识别问题。序列式对象的另一个独特属性是它们的长度可能会有很大差异。例如,英语单词可以由2个字符组成,例如“OK”或15个字符,例如“congratulations”。因此,像DCNN [25,26]这样最流行的深度模型不能直接应用于序列预测,因为DCNN模型通常在具有固定维度的输入和输出上操作,因此不能产生可变长度标签序列。
已经进行了一些尝试来针对特定的类序列对象(例如场景文本)解决该问题。例如,[35,8]中的算法首先检测单个字符,然后用DCNN模型识别这些检测到的字符,DCNN模型使用标记的字符图像进行训练。这些方法通常需要训练强大的字符检测器,以便从原始单词图像中精确地检测和裁剪每个字符。其他一些方法(如[22])将场景文本识别视为图像分类问题,并为每个英文单词(总共90K个单词)分配一个类别标签。事实证明,一个训练有素的模型具有大量的类,很难将其推广到其他类型的序列,如中文文本,乐谱等等,是导致这种类型的基本组合的数量。序列可以大于100万。总之,基于DCNN的电流系统不能直接用于基于图像的序列识别。
递归神经网络(RNN)模型是深度神经网络家族的另一个重要分支,主要用于处理序列。 RNN的一个优点是它在训练和测试中都不需要序列对象图像中每个元素的位置。 但是,将输入对象图像转换为图像特征序列的预处理步骤通常是必不可少的。 例如,Graves等。 [16]从手写文本中提取一组几何或图像特征,而Su和Lu [33]将单词图像转换为连续的HOG特征。 预处理步骤独立于管道中的后续组件,因此基于RNN的现有系统不能以端到端的方式进行训练和优化。
几种不基于神经网络的传统场景文本识别方法也为该领域带来了深刻的想法和新颖的表现。 例如,Almazan`等。 [5]和Rodriguez-Serrano等人。 [30]提出将单词图像和文本字符串嵌入到一个共同的矢量子空间中,并将单词识别转换为检索问题。 姚等人。 [36]和戈多等人。 [14]使用中级特征进行场景文本识别。 虽然在标准基准测试中取得了很好的表现,但这些方法通常优于以前基于神经网络的算法[8,22],以及本文提出的方法。
本文的主要贡献是一种新颖的神经网络模型,其网络结构专门用于识别图像中的序列式对象。所提出的神经网络模型被命名为Convo lutional Recurrent Neural Network(CRNN),因为它是一种组合DCNN和RNN。对于序列式对象,CRNN具有优于传统神经网络模型的几个独特优势:1)它可以直接从序列标签(例如,单词)中学习,不需要详细的注释(例如,字符); 2)DCNN具有直接从图像数据学习信息表示的相同属性,既不需要手工工艺特征也不需要预处理步骤,包括双重叙述/分割,组件定位等; 3)它具有相同的RNN特性,能够产生一系列标签; 4)它不受序列状物体长度的限制,只需要在训练和测试阶段进行高度归一化; 5)它比现有技术[23,8]在场景文本(单词识别)上获得更好或更具竞争力的表现; 6)它包含的参数比标准DCNN模型少得多,占用的存储空间更少。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值