Fast AI for OCR—深度学习背景下的文字识别实践应用

作者:滴普科技-算法工程师-温志平
在这里插入图片描述

Fast Data是滴普针对图像和数据打造的智能算法产品,分为图像识别和数据AI两大模块,图像识别部分主要基于深度学习和模式识别算法实现目标检测、分类、识别,机器视觉模块应用于工业缺陷检测、安防识别,其中OCR字符识别是图像识别模块的重要组成部分,接下来我们将从传统OCR的典型算法、应用领域展开分析,再结合滴普的实践,对传统OCR算法改进作深入剖析。

1.OCR技术简述

光学字符识别(Optical Character Recognition,OCR)是从图像中识别出文字的技术,利用机器将图像中手写或印刷文本转换为计算机可以直接处理的格式。文字识别是计算机视觉研究领域的分支之一,处于研究较深入的阶段,当前已取得不少商业应用。前有百度,阿里,腾讯等OCR云服务平台,后有汉王,合合信息,ABBYY,文通等OCR定制化系统集成提供商。OCR 技术能够处理多种不同场景的图像,包括拍摄或扫描得到的各种卡证、纸质文档图像,也包括含有文字的自然场景图像和叠加了字幕文本的视频图像等,被广泛运用于工业、商业和证券金融等领域。

2.OCR技术路线

在深度学习没有全面推广之前,大部分OCR识别都是基于传统机器视觉方法进行检测识别。在背景单一、数据场景简单的情况下,传统OCR一般都能达到好的效果,但在一些场景复杂、干扰多的情况下,识别效果不好,深度学习OCR此时体现出巨大的优势。2016年,Google DeepeMind发布以深度学习技术为基础的AlphaGo机器人[1],以4:1的比分战胜了国际顶尖围棋高手李世石,深度学习的热度一时无两。基于深度学习技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈,并已在工业界得到广泛应用。

2.1传统识别技术
传统OCR基于图像处理(二值化、连通域分析、投影分析等)和统计机器学习(Adaboot、SVM),提取图片上的文本内容。按处理方式划分为四个阶段:预处理、文字定位、文字识别和后处理。
在这里插入图片描述

Fig 1. 基于传统机器视觉OCR技术实现流程
OCR技术在复杂场景下面临这以下挑战。
成像复杂:噪声、模糊、光线变化、形变;
文字复杂:字体、字号、色彩、磨损、笔画宽度任意、方向任意;
场景复杂:版面缺失、背景干扰;
特征单一:人工指定特征算子,能够表征的信息有限,无法提取深层语义信息。

2.2 深度学习技术
基于深度学习的OCR技术主要包括两种方法,第一种是分为文字检测和文字识别两个阶段;第二种则是通过端对端的模型一次性完成文字的检测和识别。
检测算法:CTPN、TextBoxes、SegLink、EAST等;
识别算法:CRNN、CRNN+CTC、Seq2Seq-Attention等;
End-to-End算法:FOTS、Mask TextSpotter等。

基于深度学习的方法有以下几种优点:
自动:自动的特征表示学习可以使研究人员摆脱凭经验设计、 手工制作;
效率:性能通常比传统算法更好;
泛化:更容易推广到类似场景。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值