Gradient-Based Learning Applied to Document Recognition部分翻译

最新推荐文章于 2025-05-01 09:44:16 发布

ShaneneD

最新推荐文章于 2025-05-01 09:44:16 发布

阅读量2.5k

点赞数

分类专栏： CNN经典论文 LeNet 文章标签： LeNet-5

CNN经典论文同时被 2 个专栏收录

9 篇文章

订阅专栏

LeNet

1 篇文章

订阅专栏

本文探讨了卷积神经网络（CNN）在文档识别领域的应用，特别是手写字符识别方面表现出色。通过对比多种识别技术，CNN展现出了明显优势。文章还介绍了图形变压器网络（GTN），这是一种新的学习范式，它允许对包含多个模块的文档识别系统进行全局训练，以优化整体性能。此外，文中还提到了基于GTN的商业应用实例，例如在银行支票阅读中的成功案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

98年

下载：http://ieeexplore.ieee.org/document/726791/?reload=true&arnumber=726791

摘要

使用反向传播算法训练的多层神经网络构成了成功的基于梯度的学习技术的最佳示例。给定合适的网络架构，基于梯度的学习算法来合成复杂的决策表面，该表面可以用最少的预处理对高维模式（如手写字）进行分类。本文回顾了应用手写字符识别的各种方法，并将其与标准的手写数字识别任务进行了比较。卷积神经网络，专门设计用于处理二维（2-D）形状的变化，变现出优于所有其他的技术。

真实文档识别系统由多个模块组成，包括字段提取，分段，识别和语言建模。一种称为图形变压器网络（GTN）的新型学习范例允许使用基于梯度的方法对这种多模块系统进行全局训练，从而最大限度地降低总体性能指标。

描述了两种用于在线手写识别系统。实验证明了全局训练的优势以及图形变压器网络的灵活性。

还描述了用于读取银行支票的图形变形器网络。它使用卷积神经网络字符识别器于全球训练技术相结合，为商业和个人检查提供记录准确性。它被商业部署并每天读数百万支票。

关键词：卷积神经网络，文档识别，有限状态变换器，基于梯度的学习，图变换器网络，机器学习，神经网络，光学字符识别（OCR）

II卷积神经网络在分离特征识别中的应用

参考：https://www.jianshu.com/p/ce609f9b5910

http://cuijiahua.com/blog/2018/01/dl_3.html

https://blog.csdn.net/d5224/article/details/68928083

结论

在自动识别的短期历史中，增加学习的作用似乎总能改善识别系统的整体性能。本文中所描述的系统更多地证明了这一事实。卷积神经网络已被证明可以消除对手工特征提取提取器的需求。GTN已被证明可以减少在文档识别系统中手工启发式，手动标签和手动参数调整的需求。随着训练数据变得丰富，随着计算机速度的加快，并且随着我们对学习算法的理解力的提高，识别系统将越来越依赖学习，并且它们的性能将会提高。

正如反向传播算法优雅地解决了多层神经网络中的信用分配问题一样，本文介绍的基于梯度的GTN学习过程解决了功能体系结构随着每个新输入而动态变化的系统中的信用分配问题。这里介绍的学习算法在某种意义上只不过是在复杂的动态体系结构中使用不同寻常的梯度下降形式，并使用有效的反向传播算法来计算梯度。本文的结果有助于建立基于梯度的最小化方法的有用性和相关性，作为大系统学习的一般组织规则。

结果表明文档分析系统的所有步骤都可以表示为GT，梯度可以通过它反向传播。即使再系统的不可引导部分，图形转换方面的设计理念也为领域特定的启发式算法（例如分割启发式算法）和泛型，过程式知识（广义转换算法）

值得指出的是，数据生成模型（如HMM）和最大可能性原则并没有被用来证明本文描述的大多数体系结构和训练标准。应用于全局判别式损失函数的基于梯度的学习保证了最佳分类和拒绝，而无需使用对系统架构施加强约束的“难以证明的”原则，这通常是以牺牲性能为代价的。

更具体的说，本文提出的方法和体系结构为模式识别系统遇到的大量问题提供了通用解决方案。

1）特征提取传统上是一个固定的变换，它通常是从一些关于任务的专家先验知识中推导出来的。这依赖于可能错误的假设，即人类设计师能够捕获输入中的所有相关信息。我们已经证明，基于梯度的学习应用于卷积NN允许我们从示例中学习适当的特征。这种方法的成功在NIST数据库的广泛比较数字识别实验中得到证明。
2）图像中对象的分割和识别不能完全解耦。我们并没有过早地采用硬分段决策，而是使用HOS来并行生成和评估大量假设，推迟任何决策，直到总体标准最小化。
3）手绘图像以获得用于训练字符识别器的分割字符是昂贵的，并且不考虑整个文档或字符序列将被识别的方式（特别是，某些分割候选项可能即使它们看起来像真正的字符也是错的）。相反，我们训练多模块系统以优化全局性能测量，不需要耗时的详细手动操作，并且可以显着提高识别性能，因为它允许训练这些模块以实现共同目标。
4）分词，字符识别和语言模型中固有的歧义应该以最佳方式进行集成。我们没有使用任务依赖启发式序列来组合这些信息源，而是提出了一个统一的框架，其中将广义转导方法应用于表示关于输入的加权假设集。这种方法的成功可以通过商业化的检查阅读系统得到证实，该系统每天读取数百万次的商业和个人检查：广义转导引擎只存在几百行代码。
5）传统的识别系统依靠许多手工启发式技术来隔离单独识别的物体。有前途的SDNN方法利用卷积NN的鲁棒性和效率来完全避免显式分割。分段和识别的同时自动学习可以通过基于梯度的学习方法来实现。
本文提出了一些GT模块的例子，但很显然，这个概念可以应用于许多情况下，领域知识或状态信息可以用图表来表示。很多音频信号识别任务和视觉场景分析应用都是如此。未来的工作将尝试将GT网络应用于这些问题，希望能够更多地依靠自动学习，而不是详细的工程设计。