联机手写汉字识别，基于新型RNN网络结构的方法

最新推荐文章于 2021-06-20 20:20:42 发布

我爱计算机视觉

最新推荐文章于 2021-06-20 20:20:42 发布

阅读量1.2k

点赞数

本文简要介绍2019年4月Pattern Recognition录用论文“RecognizingOnline Handwritten Chinese Characters Using RNNs with New Computing Architectures”的主要工作。该论文主要解决了手写汉字端到端的识别问题。

一、研究背景

手写输入是一种非常普遍的人机交互方式。随着深度学习的不断发展，研究者们陆续将深度神经网络用于在线手写汉字识别[1][2][3]，技术日趋成熟。

一般来说，我们常见的手写汉字都是写在触摸屏上的，在触摸屏上书写时手或者胳膊会有支撑，因而写在触摸屏上的汉字大多都比较工整。

近年来出现了一种新型的手写方式----空中手写。这种手写方式一般是利用能够检测到手指信息的传感器（如 Leap Motion）记录用户的手指运动（书写汉字）的轨迹，并将轨迹（汉字）显示在机器上。

通过空中手写写出的汉字一般都是一笔写下来，中间没有任何笔画标记（抬笔、落笔）。除此之外，空中手写的汉字的形状会更加不规则。

我们在Fig. 1中给出了空中手写汉字识别系统介绍图以及空中手写汉字与传统手写汉字的对比图。

Fig.1. Examples ofhandwriting: (a) The example of gesture-based handwriting withthe leap motionsensor; (b) The gesture-based handwritten character recognition system; (c)Gesture-basedhandwritten Chinese characters; (d) Handwritten Chinese characters writtenontouch device.

二、主要贡献

这篇文章主要是针对于两种不同的手写汉字类型，基于递归神经网络（RNN）设计了一种端到端的识别器，在两种不同的手写汉字数据集上都取得了较好的识别效果。

除此之外，我们在传统的递归神经网络的基础上，添加了两种新的计算结构（Computing Architecture）:

1.方差约束（Variance constraint）;

2. 注意力权重向量（Attention weight vector）。

通过添加这两种新的计算结构，使得递归神经网络在参数较少的情况下获得相当高的识别率。

三、基本网络结构

Fig.2. Basic architecture of our RNN system.

Fig.2是针对于手写汉字识别的基础网络结构。它由一个N层的单向递归神经网络、一个隐含层状态向量处理层、一个全连接层构成。

在每一个时刻t，神经网络接受手写汉字样本的一个位置坐标，并计算出相应的隐含层状态向量。神经网络接收并处理完输入样本所有的位置坐标以后，这些隐含层状态向量经过处理送入全连接层。之后通过softmax分类器进行分类。

四、新的计算结构（New Computing Architectures）

1. 方差约束（Variance constraint）原理简述

假定一个递归神经网络系统，它所有的参数用集合来表示。递归神经网络的输出可以看作是输入样本的一个表示（representation）。

递归神经网络作为一个复杂的图模型，在计算输入样本的representation时会涉及到神经网络中非常多的路径和参数。由于神经网络中有许多门函数，在计算过程中这些门函数有很多都处于关闭状态（值为0），我们认为只有部分路径或者参数对计算当先样本的representation是重要的，这些路径或者参数被称为关键路径（key paths）或者关键参数（key parameters）。

由于神经网络的参数对所有样本来说都是共用的，样本与样本之间拥有共同的关键参数的概率非常大。这些被共有的关键参数通过训练获得一个相对最优的值，使得它能参与所有相关样本的representation的计算并使得它们能够正确分类。

但是如果我们考虑这种情况，如果一个样本的某些关键参数不被共有，那么通过训练它能获得一个绝对最优的值来表达这个样本。

在神经网络中参数共享不可避免，且有好处。在一定范围内减少参数共享的数量，提高神经网络的效果，是我们开展本文工作的主要目的。在本篇文章中，我们希望通过减少表示单个样本的关键参数的数量来达到上述目的。

Fig.3. Illustration to describe the change of key parameters by using the variance constraint method

从式中可看出，隐含层状态向量中元素绝对值越大的话，那么对应当前参数大概率是该样本的关键参数。若隐含层向量的绝对值为0，那么当前参数对该样本分类并无太大影响。所以隐含层状态向量元素绝对值大小对决定了当前参数对样本分类的重要性，也就是当前参数是否为该样本的关键参数。

所以我们在训练过程中约束隐含层状态向量的方差，即把隐含层状态向量的方差放入到损失函数当中。通过约束隐含层状态向量的方差，隐含层状态向量中元素的绝对值会降低，而且隐含层状态向量中所有元素的值都会分布在它的均值附近。这样隐含层状态向量中拥有大的值的元素的数目减少了，从而降低了输入样本关键参数的数目。

2. 注意力权值向量（Attention weight vector）原理简介

对于当前输入样本，在RNN中每个时刻对应的隐含层状态该向量对于识别该样本的重要性不同，在本篇文章中，我们用RNN网络自身生成一个注意力权重向量，这个权重向量赋予不同时刻的隐含层状态不同的权重。在本文中我们直接取RNN隐含层状态向量的最后一维作为该隐含层状态的权重，如Fig.4所示。

Fig.4. Attention weight vector

手写汉字的笔画坐标是连续的，当前位置与上一个时刻和下一个时刻的位置是有紧密联系的，当前时刻的隐含层状态向量以上一时刻和下一时刻的状态也是紧密联系的。

所以在计算当前时刻隐含层状态向量的权重时要将相邻时刻的隐含层状态向量考虑在内，所以我们在计算相应权重时，在时间上做了一个平滑处理，如Fig.5所示。

Fig.5 Attention weight vector

五、主要实验结果

TABLE 1. Effectiveness comparison of the "variance constraint" on IAHCC-UCAS2016.

TABLE 2. Effectiveness comparison of the "variance constraint" on ICDAR-2013 competition database.

TABLE 3. Effectiveness comparison of the "attention weights" on IAHCC-UCAS2016 datasets.

TABLE 4. Effectiveness comparison of the "attention weights" on ICDAR-2013 competition database.

TABLE 5. Comparison of recognition accuracy between ours and the state-of-the-art methodson IAHCC-UCAS2016 dataset.

TABLE 6. Comparison of recognition accuracy between ours and thestate-of-the-art methodson ICDAR-2013 competition database.

由TABLE 5、TABLE 6来看，文章所提方案在两种手写汉字数据集ICDAR-2013 competition database以及IAHCC-UCAS2016 datasets上获得了state-of-the-art的结果。从TABLE 1、TABLE 2、TABLE 3、TABLE 4来看文章所提出的两种新的计算结构能够有效的提高系统的识别效果，尤其对于少参数的系统。

六、总结及讨论

本文提出了一种在线手写汉字的端到端识别器。并在传统的RNN基础上提出了两种新的计算结构：(1)方差约束；(2)注意权向量。

方差约束机制可以有效的降低用于表示单个样本的关键参数数量，从而使得一个参数参与表达的样本数目降低。这有利于RNN系统中的参数更有可能获得表示输入样本的最优解。

引入注意力权重向量来表示不同时刻隐含层状态向量的重要程度，与现有的注意力机制相比，我们提出的方法没有引入任何额外的参数，并取得了可竞争性的效果。

大量的实验结果表明我们提出的这两种新的计算结构能够有效地改进传统RNN的性能。但是对于方差限制这种机制来说，超参数的选取在实验中特别浪费时间，所以有必要设计一种自适应的算法来改进当前的这种手动选择机制。

除此之外，本文提出得这两种计算结构不应该只局限于递归神经网络，应该对这两种机制进行改进并应用到其他网络结构当中。

参考文献

[1] X.-Y. Zhang, F. Yin, Y.-M. Zhang,C.-L. Liu, Y. Bengio, Drawing and recognizingchinese characters with recurrentneural network, TPAMI 40 (4) (2017) 849-862. 论文地址：https://arxiv.org/pdf/1606.06539.pdf

[2] W. Yang, L. Jin, Z. Xie, Z. Feng,Improved deep convolutional neural network foronline handwritten chinesecharacter recognition using domain-specic knowledge,ICDAR 15 (6) (2015) 551-555. 论文地址：https://arxiv.org/abs/1505.07675

[3] H. Ren, W. Wang, K. Lu, J. Z. Q.Yuan, An end-to-end recognizer for in-airhandwritten chinese characters basedon a new recurrent neural networks, ICME(2017) 841-846. 论文地址：https://ieeexplore.ieee.org/document/8019443

原文作者：Haiqing Ren, Weiqiang Wang,Chenglin Liu

撰稿：任海青

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

OCR交流群

关注最新最前沿的文本检测、识别、校正、预处理等技术，扫码添加CV君拉你入群，（如已为CV君其他账号好友请直接私信）

（请务必注明：OCR）