OCR技术简单汇总.md

OCR(optical chracter recogntion)

实时高效的定位与识别图片中的所有文字信息,返回文字框位置与文字内容。支持多场景、任意版面下整 图文字的识别,以及中英文、字母、数字的识别。通俗的来说,就是将图片上的文字内容,智能识别成为可编辑的文本。文字信息不仅仅包含常用的文字,还包括符号等可以表达信息的笔画。因此,对于非打印字体,手写体识别技术是一个复杂的问题。在实际场景中,还需要提前做到字符检测的过程。

技术

  1. 文本检测
    1. 文字定位、倾斜文本矫正、图像去噪、文字分割
  2. 文字识别
    1. 单字识别、语义纠错(统计模型、nlp)
  3. 难点

     

    1. 复杂背景、 艺术字体、 低分辨率、字符形变、多语言、版式复杂、字符残缺 

应用场景

身份证识别,银行卡识别,名片识别,营业执照识别,行驶证驾驶证识别,车牌号识别,通用印刷体识别,手写体识别。快递单自动识别录入。

成熟的ocr方法

  • 谷歌开源OCR引擎Tesseract(英文与数字表现优异)
  • OCR开放平台API
  • 字符模板匹配法(适用于简单任务)
  • 基于深度学习下的CNN字符识别(目前效果最好)
    1. 在OCR系统中,人工神经网络主要充当特征提取器和分类器的功能,输入是字符图像,输出是识别结果,一气呵成。

文字定位与切割(针对格式文本,word、txt等)

推荐一位博主,以下内容来源于冠军的试炼 

  1. 利用opencv进行水平矫正、透视矫正(将当前图像映射到另外一个平面。如下图所示:)

-------------------------------> 

  1. 切割文字:水平投影找到文字的每一行, 垂直投影切割每一行的每一个字
    1. 中文字体由于存在偏旁和部首,垂直投影效果较差,需要采用其他方法对其进行处理
  2. 采用深度学习的方法?

生成文字数据集

  1. 收集字体文件:直接在网上下载相应字体的字体文件 
  2. 得到文字和label的字典
  3. 生成文字图片,对图片进行图像增强,模拟印刷体出现粘连、断裂、噪点等形式

利用深度学习进行文字识别

类似leNet模型即可。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值