OCR和STR识别整体概述(一)

文字识别介绍


首先,我们首先了解OCR和STR到底是何物:

OCR英文全称是Optical Character Recognition(简称为OCR),俗称光学字符识别;而STR英文全称是Sence Text Recognition(简称STR);(以下全部识别文字识别来代表OCR和STR);目前的很多文字识别都多多少少带有一定的场景背景,因此后续文章的侧重点会偏向于图一这种带有背景的文字图片;

图一 示例:各类文字图片场景

影响文字识别效果的因素主要有以下几点:

1.文字的应用场景

2.文字的形成方式

3.文字的字体

按照文字的应用场景划分,具体可以分为一下几种(如下图二):文档类型的文字识别(例如word、pdf等等),证件类型的文字识别(例如身份证、驾驶证等等),票据类型的文字识别(例如出租车票、火车票、增值税发票等等),自然场景类型的文字识别(例如手机拍摄的路边广告牌、标语、商场店铺名等等)细分的话还有很多,这里不一一例举。

   图二   

                                                                                  图二 四种应用场景

按照文字的形成方式来划分,可以分为1.标准印刷体文字的识别(包括印刷体数字、汉字、英文),2.手写文字的识别(包括手写数字、汉字、英文),3.即存在印刷体又存在手写体的文字识别;而每一种文字的形成方式中又包含了不同的应用场景,因此识别起来会有不同的难度。

图三 三种文字的形成方式

其中文字的应用场景包含了文字的形成方式,文字的形成方式又包含了文字的字体,最终形成了一张包含文本的图像来让我们识别;


文字识别技术概览

我们较早知道或者较早用过的的文字识别的算法应该都是Tesseract-OCR,而后慢慢转向深度学习的方式。Tesseract-OCR是一套非常成熟的文字识别框架,可以直接安装使用检测自己需要识别的文本图像,并且支持训练自己的字库制作,是一个较为完善的识别框架,但是效果在众多复杂场景中难以达到识别要求;而深度学习的方式恰好弥补了这一缺陷,在众多复杂场景中只要调整自己的网络参数,就可以达到一个相对满意的结果。

而想要做好一个文字识别项目,首先要经过两个大的模块:文本检测、文字识别;检测文本区域是文字识别的前提,也是影响最终效果的重要一环,因此后面会分别描述文本检测和文本识别;

后续会通过具体的应用场景来详细描述文字识别的方法,包括中文、英文、数字、特殊符号;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值