python + tesseract OCR 文字识别

1.环境准备

——windows7 64位

——python 2.7

——tesseract-ocr,是google管理的开源项目。可以在这里获取https://github.com/tesseract-ocr/tesseract/wiki/Downloads,这里我们下载4.0版本。https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,下载完成后按照默认设置安装。

安装完毕后,需要配置2个环境变量。

1.path中添加tesseract.exe所在目录

2.增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径C:\Program Files (x86)\Tesseract-OCR;

安装详细步骤,可参考https://www.cnblogs.com/jianqingwang/p/6978724.html

——pytesseract,是tesseract的python库所以,使用pip即可安装这个库。同时我们还需要PIL用于图像处理,在没有PIL的情况下,tesseract只支持bmp图片。PIL现在改名为pillow,在pip安装的时候,需要注意名称。

pip install pillow
pip install pytesseract

2.tesseract的应用

import pytesseract
from PIL import Image

code = image_to_string(Image.open('test.png'), lang="eng", config="-psm 7")
print code
 

以上代码可以识别test.png的文字,lang参数表示language,eng表示英文,config参数为识别方式,可以在cmd中执行tesseract,可以看到-psm的值表示的识别方式,这里-psm 7表示识别为单行文字 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值