菜鸟读文献系列(三)

本文介绍了使用卷积神经网络(CNN)进行端到端文本识别的方法,通过无监督特征学习和CNN的强大表示能力,构建了高精度的文本检测和字符识别系统。在标准基准上,如街道文本和ICDAR 2003,实现了最先进的性能。系统采用简单的后处理技术,如非最大抑制和波束搜索,简化了传统依赖复杂模型和手工特征的文本识别流程。
摘要由CSDN通过智能技术生成

End-to-End Text Recognition with Convolutional Neural Networks
卷积神经网络的端到端文本识别
摘要:在自然图像中的完全端到端文本识别是一个具有挑战性的问题,近来已经受到极大关注。在这一领域的传统系统依靠精心设计的模型结合仔细手工工程特征或大量的先验知识。在本文中,我们采取不同的路线,并结合大型多层神经网络的表示力量与无监督特征学习的最近发展,这允许我们使用通用框架来训练高精度文本检测器和字符识别器模块。然后,只使用简单的现成方法,我们将这两个模块集成到一个完整的端到端,词典驱动,场景文本识别系统,实现了标准基准的最先进的性能,即街道 查看文本和ICDAR 2003。
1简介
从自然图像中提取文本信息是许多实际应用中的一个具有挑战性的问题。与扫描文档的字符识别不同,在无约束图像中识别文本由于背景,纹理,字体和照明条件的广泛变化而变得复杂。因此,许多文本检测和识别系统依赖于巧妙地手工设计的特征来表示基础数据。还经常需要复杂的模型,例如条件随机场或图像结构,以将原始检测/识别输出组合成一个完整的系统。在本文中,我们从不同的角度攻击这个问题。对于低级数据表示,我们使用无人监督的特征学习算法,可以自动从给定数据提取特征。这样的算法在诸如视觉识别和动作识别的许多相关领域中已经获得了许多成功。在文本识别的情况下,系统在文本检测和字符识别中使用简单且可扩展的特征学习架构来实现竞争性结果,其包括非常少的手工工程和先验知识。我们将这些学习的特征集成到一个大的,区别训练的卷积神经网络(CNN)。CNN在诸如手写识别,视觉对象识别和字符识别的类似问题中获得了许多成功。通过利用这些网络的表现力,我们能够训练高精度的文本检测和字符识别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值