tesseract安装使用

tesseract 是一个google支持的开源ocr项目。下面介绍如何使用

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;

  1. 下载windows版本的tesseract安装包,我下载的版本是是http://3.onj.me/tesseract/网站所维护的,安装后有个doc文件夹,里面有英文的使用文档。为了在全局使用方便,比如安装路径为D:\Application\tesseract,将D:\Application\tesseract添加到环境变量的path中。添加环境变量值

  2. 为了进行测试,我们在其他文件夹下,比如在桌面建立了一个文件夹进行测试,C:\Users\Administrator\Desktop\pythonTest\tesseract,此文件夹有个验证码图片1.jpg, 在此文件夹打开cmd命令,输入tesseract 1.jpg res, 这个是最基础的用法,就是将1.jpg这个图片的文字转为res.text。默认用英语的语言包。运行完后,文件夹里面出现res.text, 内容就是被转换的文字这个是成功的示例但是一开始,我却发现报以下错误
    Error opening data file ….
    Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory.
    Failed loading language ‘eng’
    Teseract couldn’t load any languages!
    Counld not initialize tesseract

    上面的意思就是说不能加载’eng’语言包。请将tessdata的父文件夹路径设置为TESSDATA_PREFIX环境变量值,这个就是说在环境变量中新建一个系统变量,变量名称为TESSDATA_PREFIX,tessdata是放置语言包的文件夹,一般在你安装tesseract的目录下,即tesseract的安装目录就是tessdata的父目录,把ESSDATA_PREFIX的值设置为它就行了

    这是我的tesseract安装路径

    设置TESSDATA_PREFIX系统变量

  3. 重启电脑(我就是没有干这事儿,浪费了2小时折腾各种文档),然后按照第二部就能成功了

参考链接: http://www.cnblogs.com/zhongtang/p/5554784.html

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值