表单识别(五)——票据识别-论文研读:基于深度学习的票据识别系统设计与实现,卞飞飞(上)

(论文研读:基于深度学习的票据识别系统设计与实现,卞飞飞;)

引言:

  • 传统的文本检测与识别算法主要指利用数字图像处理等非深度学习技术进行文本检测的方法,依赖于数字图像特征(如颜色、纹理、轮廓、形状等特征)的构建进行文本检测与识别。
  • Zhong等人[10]提出先根据水平空间的方差粗略定位文字目标,然后基于纹理和颜色特征对文字目标进行精确定位,实现一种由粗到细的文本检测方法。Lyu等人在文献[11]中提出通过边缘检测的方法定位文本区域,然后使用自适应二值化的手段对文本区域内的文字进行分割,提取出文字目标,该方法结合了边缘检测、局部阈值、边缘恢复等方法,实现视频中文字的高精度检测。Pan等人在文献[12]中提出采用混合方法提高文字检测的稳定性和鲁棒性,并使用条件随机场(Conditional Random Field, CRF)有效滤除非文本区域。Kim等人[13]提出使用图像局部强度信息训练支持向量机(Support Vector Machine,SVM)的方式寻找图片上的文字区域。Wang等人[14]提出利用滑动窗口的方式检测图片上的单个字符位置和及其类别,并依据空间位置关系组合相邻的字符得到单词文本目标,该方法检测精度较高,但流程复杂,效率较低。

文字检测

  • 传统的文字检测与识别方法依赖手工特征的设计,并包含复杂繁琐的后处理部分,文字检测精度较低,且效率较低。得益于深度学习技术的发展与开源数据的帮助,目前主流的文字检测与识别算法均为基于深度学习的方法,基于深度学习技术的文字检测方法,在检测精度、检测效率上均超过传统的文字检测方法。基于深度学习的场景文字检测方法主要分为两类,一是基于回归文本框的文字检测算法,二是基于分割的文字检测算法。

基于回归文本框的文字检测算法

Text Boxes]、Text Boxes++

  • 基于回归文本框的文字检测算法受到一般物体目标检测方法启发,并在一般物体检测方法的基础上做出针对性的改进。从宏观角度看,文字检测属于一般物体目标检测,即将文字视为一类特殊目标。文字目标的特点在于:文字的长宽比大;文字目标尺度范围大;存在水平、多方向文字目标。针对文字目标的特点,研究者在一般物体目标检测算法的基础上做了针对性调整和改进,其中典型的工作如Text Boxes[18]、Text Boxes++[19]、EAST[20]等。

  • 在这里插入图片描述

  • Text Boxes基于一般目标检测网络SSD[21]改进而来,如图2-1所示,Text Boxes采用多尺度输入,适应多尺度文本目标;设计长宽比较大的默认框,采用{1,2,3,5,7,10}六种长宽比比例;设计1×5尺寸卷积核,产生矩形感受野,更好的提取文字特征。Text Boxes++在Text Boxes基础上进一步改进,与Text Boxes直接预测默认框的位置偏移与长宽不同,Text Boxes++预测默认框的顶点坐标偏移,如图2-2所示,图中黄色框表示标注框,绿色虚线框表示与标注框匹配成功的默认框,红色箭头表示预测默认框的四个顶点的偏移,黑色虚线框表示未匹配到标注框的默认框,绿色实线框表示标注框的最小水平矩形包围框。通过回归默认框的四个顶点坐标,得到任意方向、任意角度的文本包围框,实现多方向文本检测,克服Text Boxes只能检测水平文本框的缺点。

  • 在这里插入图片描述

EAST

  • EAST与Text
    Boxes++相同,解决多方向文本检测问题,不同之处在于,EAST采用分割方式预测文本区域,即预测每一个像素点属于文本区域的概率,同时预测文本区域内每个像素点距文本框四边的距离(l1,l2, l3, l4)、文本框的倾斜角度θ和文本框的四个顶点坐标,如图2-3所示。

在这里插入图片描述

基于分割的文字检测算法

  • 基于回归文本框的文字检测算法由一般物体目标检测方法发展而来,适用于大部分文本检测任务,但同时存在缺点,如算法阶段多、后处理过程复杂、左右边界的字符容易漏检(如图2-4所示)。虽然这种漏检对检测精度没有影响,但对于后续的文字识别任务影响较大,左右字符的漏检导致整个单词识别错误,尤其是对于含有重要信息的金融票据,识别错误对后续数据的处理与使用将产生重大影响。因此,在票据文本检测算法的研究工作中,必须避免左右字符漏检的问题。

  • 基于分割的文本检测算法将文本检测任务视为语义分割任务,即预测每个像素属于文本区域的概率,得到每个像素的分类结果,再利用后处理组合成文本区域,最终得到文本区域包围框。基于文本区域分割的方法可完成任意形状、任意方向、任意曲形文本的检测任务,且分割方式不会产生字符漏检情况,检测结果召回率高于基于回归文本框的方法。但基于分割的密集文本检测容易产生分割区域粘连问题,如图2-5所示:

  • 在这里插入图片描述

  • 如图2-5所示,密集文本分割存在区域粘连,导致一个文本框包围多个文本区域。对于粘连问题,直接的想法是建模文本区域间边界信息,通过边界信息区分不同文本实例,典型工作如DB[22]、Text Field[23]等。

Text Field

  • Text Field建模文本区域方向场信息,即文本区域内每个像素点到最近文本框边界的矢量。方向信息使用二维向量表示,通过全卷积网络学习方向场信息,方向场的模长信息编码像素点属于文本区域的概率,利用模长信息可得到文本区域;方向场的方向信息编码像素点距离最近的文本边界的方向,利用方向信息即可分离相邻的文本实例,完成密集文本检测任务。Text Field流程如图2-6所示:

Magnitude 重要性 大小
Fusion融合 融化
Visualization 形象化
在这里插入图片描述

  • 与Text Field建模方向场不同,DB从分割结果二值化的阈值角度考虑。通常得到文本区域概率预测(Score map)后,通过预设的阈值对Score map进行二值化得到分割文本区域。DB算法认为不同的区域应使用不同的二值化阈值,对于靠近文本边界的文本区域,应使用较高的阈值;对于远离文本边界的文本区域,应使用较低的阈值,且阈值是可预测的变量。因此DB算法除了预测Score map之外,同时预测二值化阈值(Threshold map),为Score map上每一个像素点提供一个预测阈值进行二值化。对于密集文本,即使预测的文本区域存在区域粘连的情况,通过较高阈值进行二值化即可将粘连区域去除。

文字识别

  • 传统的图像处理方法进行文字识别要经过图像预处理、版面处理、图像切分、特征提取、匹配及模型训练、识别后处理等步骤,步骤繁琐,且识别精度较低,后处理过程复杂,所以目前主流文字识别方法均是基于深度学习的方法,典型工作如CRNN[32]。

CRNN

  • CRNN认为每个字符的识别不仅依赖当前字符的特征,且与前后字符特征有关,即将字符识别问题转化为序列识别问题。使用卷积神经网络(Convolutional Neural Network,CNN)对文字图片进行特征提取,使用双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)对卷积网络得到的文本特征序列进行序列识别,得到序列每一帧的识别结果,最后通过去重操作得到最终的识别结果。其结构如图2-7所示。

在这里插入图片描述

  • 目前基于深度学习的文字识别算法基本均由CRNN网络发展而来,票据文本识别算法主要还是基于CRNN网络,对CRNN网络做出针对性的改进,提高票据文本识别精度。

  • 早期的票据文本识别工作主要基于传统文本识别方法,利用图像特征(如颜色特征、纹理特征、HOG特征、SIFT特征等)进行票据图片中字符的识别。吴畏等人[6]提出使用不同方法对票据图片上待识别区域的字符进行切分,提高票据识别系统的准确率和速度;朱辉等人[5]基于方向元素特征和数字模板,采用最小欧式距离分类器与模板匹配分类器融合的方式,在银行票据图片上数字字符识别率达到99.527%;张闯等人[4]提出利用支持向量机与神经网络相结合的方式,并对相似字进行二次识别,降低错误率,解决票据图片上手写数字识别问题;肖波等人[3]改进切分算法,解决覆盖、粘连等不确定位数的银行票据手写数字串切分问题,提高手写数字识别精度。

  • 以卷积神经网络为代表的深度学习算法兴起后,基于深度学习的OCR研究工作大量涌现,在文档识别等领域取得卓越的成绩。由于票据识别属于文档识别领域,目前针对票据文本检测识别的研究工作较少,没有出现较为有效的深度学习方法。现有的票据文本识别研究工作是在自然场景文字检测识别的工作基础上发展而来,但票据图片上的文本有着与文档文本、自然场景文本不同的特点,且识别精度要求高。受到票据文本识别相关比赛[36]的影响,越来越多研究人员开始关注基于深度学习的票据文本检测与识别算法。Le
    等人[7]提出基于深度学习的扫描票据识别方法,利用 x 轴与 y 轴的直方图提取扫描图片上的票据区域,使用
    CTPN[26]方法检测票据文本并使用 CRNN[32]网络识别文本内容。

  • 此外,部分工作研究文本检测与识别方法在票据识别系统中的应用,虞飞等人[2]在分析商业发票特点基础上,设计基于投影特性的识别算法,实现一种商业发票识别系统;张红云等人[1]提出一种基于票据数字定位、数字串分割算法的票据自动识别系统,为票据自动识别提供一条新途径。目前关于票据识别系统的研究工作较少,且现有的针对票据识别系统的研究停留在传统文本检测与识别算法,虽然有较高的精度,但鲁棒性较差。基于深度学习方法的票据识别系统的研究少之又少,因此,研究基于深度学习的票据识别系统具有较大价值和意义。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 开发背景: 随着互联网的不断发展,教育行业也逐渐开始向网络化、智能化方向转型。在线教育平台已经成为了一种趋势,越来越多的高校也开始推出自己的在线学习平台。然而,目前市面上的在线学习平台大多数都是面向大众,缺乏针对高校学生的专业化服务。因此,设计并开发一款专门为高校学生提供在线课程学习服务的系统,具有非常重要的现实意义。 选题意义: 该系统的开发旨在为高校学生提供更加便捷、高效、专业的在线课程学习服务。具体来说,该系统的开发意义包括以下几个方面: 1. 为高校学生提供更加便捷的学习方式:传统的课堂教学方式存在时间和空间上的限制,而在线学习可以随时随地进行,更加灵活和便捷。 2. 提高学习效率:在线学习可以为学生提供更加多样化的学习资源,包括视频、音频、图文等多种形式,可以满足不同学生的学习需求,提高学习效率。 3. 增强学生的自主学习能力:在线学习需要学生主动进行学习,能够培养学生的自主学习能力,提高学生的学习兴趣和主动性。 4. 为高校提供更加科学的教学管理方式:在线学习平台可以为高校提供更加科学、高效的教学管理方式,可以通过数据分析等方式对学生的学习情况进行监控和评估,帮助高校更加科学地管理教学。 因此,开发一款基于Django的高校课程在线学习系统,可以满足高校学生的学习需求,提高学生的学习效率和自主学习能力,同时也可以为高校提供更加科学的教学管理方式,具有非常重要的现实意义。 ### 回答2: 开发一个基于Django的高校课程在线学习系统的背景和选题意义主要有以下几个方面。 首先,在线学习系统的需求日益增长。随着互联网的普及和发展,许多高校开始转变传统的面对面授课模式,采用在线学习方式进行教学。这种方式节约了时间和空间成本,并且能够提供更多样化的学习资源。因此,开发一个高校课程在线学习系统能够满足学生、教师和学校的需求,提高教学效果和学习体验。 其次,Django作为一个简洁高效的Web开发框架,具有许多优点。它遵循MVC(模型-视图-控制器)的软件设计模式,使开发人员能够更好地组织和管理代码。Django还提供了许多内置的功能和工具,如认证系统、ORM(对象关系映射)和表单验证,简化了开发过程,提高了开发效率。因此,选择Django作为开发平台,能够快速构建一个稳定可靠的高校课程在线学习系统。 最后,高校课程在线学习系统的实现具有广泛的应用前景。该系统可以为高校的教师和学生提供一个便捷的平台,用于管理和学习课程。教师可以方便地发布和更新课程资料,并与学生进行互动和沟通。学生可以根据自己的学习进度和兴趣,自由选择和学习课程。此外,该系统还可以提供学习数据的统计和分析功能,帮助学校和教师进行教学评估和改进。因此,开发基于Django的高校课程在线学习系统对于提高教学质量和学习效果具有重要意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

椒椒。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值