End-to-End Text Recognition with Convolutional Neural Networks
卷积神经网络的端到端文本识别
摘要:在自然图像中的完全端到端文本识别是一个具有挑战性的问题,近来已经受到极大关注。在这一领域的传统系统依靠精心设计的模型结合仔细手工工程特征或大量的先验知识。在本文中,我们采取不同的路线,并结合大型多层神经网络的表示力量与无监督特征学习的最近发展,这允许我们使用通用框架来训练高精度文本检测器和字符识别器模块。然后,只使用简单的现成方法,我们将这两个模块集成到一个完整的端到端,词典驱动,场景文本识别系统,实现了标准基准的最先进的性能,即街道 查看文本和ICDAR 2003。
1简介
从自然图像中提取文本信息是许多实际应用中的一个具有挑战性的问题。与扫描文档的字符识别不同,在无约束图像中识别文本由于背景,纹理,字体和照明条件的广泛变化而变得复杂。因此,许多文本检测和识别系统依赖于巧妙地手工设计的特征来表示基础数据。还经常需要复杂的模型,例如条件随机场或图像结构,以将原始检测/识别输出组合成一个完整的系统。在本文中,我们从不同的角度攻击这个问题。对于低级数据表示,我们使用无人监督的特征学习算法,可以自动从给定数据提取特征。这样的算法在诸如视觉识别和动作识别的许多相关领域中已经获得了许多成功。在文本识别的情况下,系统在文本检测和字符识别中使用简单且可扩展的特征学习架构来实现竞争性结果,其包括非常少的手工工程和先验知识。我们将这些学习的特征集成到一个大的,区别训练的卷积神经网络(CNN)。CNN在诸如手写识别,视觉对象识别和字符识别的类似问题中获得了许多成功。通过利用这些网络的表现力,我们能够训练高精度的文本检测和字符识别
菜鸟读文献系列(三)
最新推荐文章于 2021-06-24 21:09:06 发布
![](https://img-home.csdnimg.cn/images/20240709112858.png)