软件工程应用与实践（七）：Paddle OCR文字识别器策略五

最新推荐文章于 2023-02-08 10:15:02 发布

pinkray_c

最新推荐文章于 2023-02-08 10:15:02 发布

阅读量1.3k

点赞数 2

文章标签： python big data 数据分析

本文链接：https://blog.csdn.net/pinkray_c/article/details/121311651

版权

2021SC@SDUSC

一、前情回顾

1.1　PP-OCR文字识别策略

1.2　本文介绍策略

二、PP-OCR中CRNN与attention

2.5　CRNN所涉及的PP-OCR文字识别模型优化策略

三、PP-OCR中特征图解析策略实现与代码分析

一、前情回顾

1.1　PP-OCR文字识别策略

策略的选用主要是用来增强模型能力和减少模型大小。下面是PP-OCR文字识别器所采用的九种策略：

轻主干，选用采用 MobileNetV3 large x0.5 来权衡精度和效率；
数据增强，BDA (Base Dataaugmented)和TIA (Luo et al. 2020)；
余弦学习率衰减，有效提高模型的文本识别能力；
特征图辨析，适应多语言识别，进行向下采样 feature map的步幅修改；
正则化参数，权值衰减避免过拟合；
学习率预热，同样有效；
轻头部，采用全连接层将序列特征编码为预测字符，减小模型大小；
预训练模型，是在 ImageNet 这样的大数据集上训练的，可以达到更快的收敛和更好的精度；
PACT量化，略过 LSTM 层；

1.2　本文介绍策略

特征图辨析，适应多语言识别，进行向下采样 feature map的步幅修改；

二、PP-OCR中CRNN与attention

2.1　CRNN和attention

　　现今基于深度学习的端到端OCR技术有两大主流技术：CRNN OCR和attention OCR。这两大方法主要区别在于最后的输出层（翻译层），即怎么将网络学习到的序列特征信息转化为最终的识别结果，见下图。这两大主流技术在其特征学习阶段都采用了CNN+RNN的网络结构，CRNN OCR在对齐时采取的方式是CTC算法，而attention OCR采取的方式则是attention机制。

2.2 为什么PP-OCR选用CRNN

现在已经有为什么很多的识别策略，问什么采用CRNN呢？transformer、attention等的效果在大数据集综合测试上效果相当不错，但是在中文的应用场景下，效果并不是太好——中文字符太多，挖掘字符间的序列关系比较困难。CRNN表现比较稳定，同时PP-OCR 也在尝试使用SRN和transformer相结合的策略，但是由于效果并没有太大提升，所以仍选用CRNN。

　　另外相比于attention，CTC结合CRNN还有以下优点：

从效果上来看，通用OCR场景CTC的识别效果优于Attention，因为带识别的字典中的字符比较多，常用中文汉字三千字以上，如果训练样本不足的情况下，对于这些字符的序列关系挖掘比较困难。中文场景下Attention模型的优势无法体现。而且Attention适合短语句识别，对长句子识别比较差。
从训练和预测速度上，Attention的串行解码结构限制了预测速度，而CTC网络结构更高效，预测速度上更有优势。

2.3　CRNN介绍

　　CRNN（Convolutional Recurrent Neural Network）主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，也就是基于图像的序列识别。CRNN实现卷积特征和序列特征融合。

　　整个CRNN网络结构包含三部分，从下到上依次为：

1.CNN（卷积层）：使用深度CNN，对输入图像提取特征，得到特征图；
2.RNN（循环层）：使用双向RNN（BLSTM）对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签（真实值）分布；
3.CTC loss（转录层）：使用CTC损失，把从循环层获取的一系列标签分布转换成最终的标签序列，同时CTC损失解决预测结果（定长）和标签（边长）不一致的问题。

如下图：

2.4　CRNN执行流程

识别过程中，先使用标准的CNN网络提取文本图像的特征，再利用BLSTM将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过转录层(CTC)进行预测得到文本序列。

有几点注意：

利用BLSTM和CTC学习到文本图像中的上下文关系可以有效提升文本识别准确率。
在训练阶段，CRNN将训练图像统一缩放为160×32（w×h）；在测试阶段，针对字符拉伸会导致识别率降低的问题，CRNN保持输入图像尺寸比例，但是图像高度还是必须统一为32个像素，卷积特征图的尺寸动态决定LSTM 的时序长度（时间步长）。

2.5　CRNN所涉及的PP-OCR文字识别模型优化策略

特征图辨析，适应多语言识别，进行向下采样 feature map的步幅修改；

　　在CRNN中，涉及文本图像特征图和特征向量。经消融实验发现，对文本识别模型大小影响比较大的是特征图分辨率的大小。特征图分辨率，也就是把具有相应分辨率的骨干网络适配到一个文本识别模型。

骨干网络一般来自于图像分类模型。在PP-OCR中，选用的是MobileNetV3。图像分类模型的输入的分辨率一般是24像素*24像素，但是对于OCR文字识别模型来说，在中文场景下的输入一般都是一个整行序列，其分辨率为32像素*320像素。如果识别模型特征图（分辨率32*320）按照识别模型（分辨率24*24）的stride（步幅）去下降的话，32*320的特征图会降得非常小，整个序列上的信息和分辨率都会损失。因此对stride修改会在很大程度上影响特征图信息——分辨率更大，捕捉到的信息越多。所以这里要调整特征图分辨率在文本识别模型中的的下降步幅，从而保证文本行之间的序列特征信息。

当然，调整特征图分辨率也有缺点，因为分辨率大的话对识别时间增加　因为PP-OCR所选用的模型比较小，所以对实现图像识别的速率影响并不会非常明显。如实验显示，对单张图像的识别时间从11.84ms增加到12.96ms。