表单识别（五）——票据识别-论文研读：基于深度学习的票据识别系统设计与实现，卞飞飞（上）

最新推荐文章于 2023-04-12 17:00:48 发布

椒椒。

最新推荐文章于 2023-04-12 17:00:48 发布

阅读量1.1k

点赞数 3

分类专栏： OCR 表格识别文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/qq_38978225/article/details/126539575

版权

OCR 同时被 2 个专栏收录

7 篇文章 8 订阅

订阅专栏

表格识别

3 篇文章 0 订阅

订阅专栏

（论文研读：基于深度学习的票据识别系统设计与实现，卞飞飞；）

引言：

传统的文本检测与识别算法主要指利用数字图像处理等非深度学习技术进行文本检测的方法，依赖于数字图像特征（如颜色、纹理、轮廓、形状等特征）的构建进行文本检测与识别。
Zhong等人[10]提出先根据水平空间的方差粗略定位文字目标，然后基于纹理和颜色特征对文字目标进行精确定位，实现一种由粗到细的文本检测方法。Lyu等人在文献[11]中提出通过边缘检测的方法定位文本区域，然后使用自适应二值化的手段对文本区域内的文字进行分割，提取出文字目标，该方法结合了边缘检测、局部阈值、边缘恢复等方法，实现视频中文字的高精度检测。Pan等人在文献[12]中提出采用混合方法提高文字检测的稳定性和鲁棒性，并使用条件随机场（Conditional Random Field, CRF）有效滤除非文本区域。Kim等人[13]提出使用图像局部强度信息训练支持向量机（Support Vector Machine,SVM）的方式寻找图片上的文字区域。Wang等人[14]提出利用滑动窗口的方式检测图片上的单个字符位置和及其类别，并依据空间位置关系组合相邻的字符得到单词文本目标，该方法检测精度较高，但流程复杂，效率较低。

文字检测

传统的文字检测与识别方法依赖手工特征的设计，并包含复杂繁琐的后处理部分，文字检测精度较低，且效率较低。得益于深度学习技术的发展与开源数据的帮助，目前主流的文字检测与识别算法均为基于深度学习的方法，基于深度学习技术的文字检测方法，在检测精度、检测效率上均超过传统的文字检测方法。基于深度学习的场景文字检测方法主要分为两类，一是基于回归文本框的文字检测算法，二是基于分割的文字检测算法。

基于回归文本框的文字检测算法

Text Boxes]、Text Boxes++

基于回归文本框的文字检测算法受到一般物体目标检测方法启发，并在一般物体检测方法的基础上做出针对性的改进。从宏观角度看，文字检测属于一般物体目标检测，即将文字视为一类特殊目标。文字目标的特点在于：文字的长宽比大；文字目标尺度范围大；存在水平、多方向文字目标。针对文字目标的特点，研究者在一般物体目标检测算法的基础上做了针对性调整和改进，其中典型的工作如Text Boxes[18]、Text Boxes++[19]、EAST[20]等。
Text Boxes基于一般目标检测网络SSD[21]改进而来，如图2-1所示，Text Boxes采用多尺度输入，适应多尺度文本目标；设计长宽比较大的默认框，采用{1,2,3,5,7,10}六种长宽比比例；设计1×5尺寸卷积核，产生矩形感受野，更好的提取文字特征。Text Boxes++在Text Boxes基础上进一步改进，与Text Boxes直接预测默认框的位置偏移与长宽不同，Text Boxes++预测默认框的顶点坐标偏移，如图2-2所示，图中黄色框表示标注框，绿色虚线框表示与标注框匹配成功的默认框，红色箭头表示预测默认框的四个顶点的偏移，黑色虚线框表示未匹配到标注框的默认框，绿色实线框表示标注框的最小水平矩形包围框。通过回归默认框的四个顶点坐标，得到任意方向、任意角度的文本包围框，实现多方向文本检测，克服Text Boxes只能检测水平文本框的缺点。

EAST

EAST与Text
Boxes++相同，解决多方向文本检测问题，不同之处在于，EAST采用分割方式预测文本区域，即预测每一个像素点属于文本区域的概率，同时预测文本区域内每个像素点距文本框四边的距离(l1,l2, l3, l4)、文本框的倾斜角度θ和文本框的四个顶点坐标，如图2-3所示。

在这里插入图片描述

基于分割的文字检测算法

基于回归文本框的文字检测算法由一般物体目标检测方法发展而来，适用于大部分文本检测任务，但同时存在缺点，如算法阶段多、后处理过程复杂、左右边界的字符容易漏检（如图2-4所示）。虽然这种漏检对检测精度没有影响，但对于后续的文字识别任务影响较大，左右字符的漏检导致整个单词识别错误，尤其是对于含有重要信息的金融票据，识别错误对后续数据的处理与使用将产生重大影响。因此，在票据文本检测算法的研究工作中，必须避免左右字符漏检的问题。
基于分割的文本检测算法将文本检测任务视为语义分割任务，即预测每个像素属于文本区域的概率，得到每个像素的分类结果，再利用后处理组合成文本区域，最终得到文本区域包围框。基于文本区域分割的方法可完成任意形状、任意方向、任意曲形文本的检测任务，且分割方式不会产生字符漏检情况，检测结果召回率高于基于回归文本框的方法。但基于分割的密集文本检测容易产生分割区域粘连问题，如图2-5所示：
如图2-5所示，密集文本分割存在区域粘连，导致一个文本框包围多个文本区域。对于粘连问题，直接的想法是建模文本区域间边界信息，通过边界信息区分不同文本实例，典型工作如DB[22]、Text Field[23]等。

Text Field

Text Field建模文本区域方向场信息，即文本区域内每个像素点到最近文本框边界的矢量。方向信息使用二维向量表示，通过全卷积网络学习方向场信息，方向场的模长信息编码像素点属于文本区域的概率，利用模长信息可得到文本区域；方向场的方向信息编码像素点距离最近的文本边界的方向，利用方向信息即可分离相邻的文本实例，完成密集文本检测任务。Text Field流程如图2-6所示：

Magnitude 重要性大小
Fusion融合融化
Visualization 形象化
在这里插入图片描述

与Text Field建模方向场不同，DB从分割结果二值化的阈值角度考虑。通常得到文本区域概率预测（Score map）后，通过预设的阈值对Score map进行二值化得到分割文本区域。DB算法认为不同的区域应使用不同的二值化阈值，对于靠近文本边界的文本区域，应使用较高的阈值；对于远离文本边界的文本区域，应使用较低的阈值，且阈值是可预测的变量。因此DB算法除了预测Score map之外，同时预测二值化阈值（Threshold map），为Score map上每一个像素点提供一个预测阈值进行二值化。对于密集文本，即使预测的文本区域存在区域粘连的情况，通过较高阈值进行二值化即可将粘连区域去除。

文字识别

传统的图像处理方法进行文字识别要经过图像预处理、版面处理、图像切分、特征提取、匹配及模型训练、识别后处理等步骤，步骤繁琐，且识别精度较低，后处理过程复杂，所以目前主流文字识别方法均是基于深度学习的方法，典型工作如CRNN[32]。

CRNN

CRNN认为每个字符的识别不仅依赖当前字符的特征，且与前后字符特征有关，即将字符识别问题转化为序列识别问题。使用卷积神经网络（Convolutional Neural Network，CNN）对文字图片进行特征提取，使用双向长短期记忆网络（Bi-directional Long Short-Term Memory，BiLSTM）对卷积网络得到的文本特征序列进行序列识别，得到序列每一帧的识别结果，最后通过去重操作得到最终的识别结果。其结构如图2-7所示。

在这里插入图片描述

目前基于深度学习的文字识别算法基本均由CRNN网络发展而来，票据文本识别算法主要还是基于CRNN网络，对CRNN网络做出针对性的改进，提高票据文本识别精度。
早期的票据文本识别工作主要基于传统文本识别方法，利用图像特征（如颜色特征、纹理特征、HOG特征、SIFT特征等）进行票据图片中字符的识别。吴畏等人[6]提出使用不同方法对票据图片上待识别区域的字符进行切分，提高票据识别系统的准确率和速度；朱辉等人[5]基于方向元素特征和数字模板，采用最小欧式距离分类器与模板匹配分类器融合的方式，在银行票据图片上数字字符识别率达到99.527%；张闯等人[4]提出利用支持向量机与神经网络相结合的方式，并对相似字进行二次识别，降低错误率，解决票据图片上手写数字识别问题；肖波等人[3]改进切分算法，解决覆盖、粘连等不确定位数的银行票据手写数字串切分问题，提高手写数字识别精度。
以卷积神经网络为代表的深度学习算法兴起后，基于深度学习的OCR研究工作大量涌现，在文档识别等领域取得卓越的成绩。由于票据识别属于文档识别领域，目前针对票据文本检测识别的研究工作较少，没有出现较为有效的深度学习方法。现有的票据文本识别研究工作是在自然场景文字检测识别的工作基础上发展而来，但票据图片上的文本有着与文档文本、自然场景文本不同的特点，且识别精度要求高。受到票据文本识别相关比赛[36]的影响，越来越多研究人员开始关注基于深度学习的票据文本检测与识别算法。Le
等人[7]提出基于深度学习的扫描票据识别方法，利用 x 轴与 y 轴的直方图提取扫描图片上的票据区域，使用
CTPN[26]方法检测票据文本并使用 CRNN[32]网络识别文本内容。
此外，部分工作研究文本检测与识别方法在票据识别系统中的应用，虞飞等人[2]在分析商业发票特点基础上，设计基于投影特性的识别算法，实现一种商业发票识别系统；张红云等人[1]提出一种基于票据数字定位、数字串分割算法的票据自动识别系统，为票据自动识别提供一条新途径。目前关于票据识别系统的研究工作较少，且现有的针对票据识别系统的研究停留在传统文本检测与识别算法，虽然有较高的精度，但鲁棒性较差。基于深度学习方法的票据识别系统的研究少之又少，因此，研究基于深度学习的票据识别系统具有较大价值和意义。