图片识别——Tesseract

Tesseract是开源的OCR引擎。Tesseract最初设计用于英文识别,经过改进引擎和训练系统,它能够处理其它语言和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符,但并非在所有语言上都工作得很好。Tesseract在庞大字符集语言(比如中文)上较慢,但是工作良好。

识别:
二值化、灰度、倾斜校正和图片(文字)切割
遍历所有像素点,然后二值化【比如判断RGB值小于#FFFFFF的(即非白色)时候标记为1,大于等于#FFFFFF(即白色)的标记为0,存进二维数组】

排版英文,数字,简单验证码
手写的数字,中文识别 等不太好

基本使用方法:
tesseract images/abc.jpeg out -l eng -psm 7 digits
images/abc.jpeg:输入待OCR的图片;
out:输出结果到终端,也可用文件名,表示输出到文件;
-l eng:使用英文识别库;
-psm 7:表示分页方式,7表示将图片视为单行文字;
digits:识别配置文件,这里表示只识别数字。

中文库目前:
https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

训练:
支持tiff需要安装 libtiff和leptonica
1、制作box file
通过命令生成.box或者下载windows工具
tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox
其中lang为语言名称,fontname为字体名称,num为序号,可以随便定义。
2、利用jTessBoxEditor
生成的.box要和这个.tif文件同在一个目录下。
逐个校正文字,后保存。
3、合并

其他说明:
更多参考:http://wangjunle23.blog.163.com/blog/static/117838171201323031458171/
商业化:ABBYY Finereader
在线ocr地址:https://www.newocr.com/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值