tesseract安装使用

最新推荐文章于 2024-05-23 11:27:29 发布

kiramario

最新推荐文章于 2024-05-23 11:27:29 发布

阅读量1.5w

点赞数 7

文章标签： ocr tesseract 谷歌计算机 windows

本文链接：https://blog.csdn.net/kiramario/article/details/53781369

版权

tesseract 是一个google支持的开源ocr项目。下面介绍如何使用

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；

下载windows版本的tesseract安装包，我下载的版本是是http://3.onj.me/tesseract/网站所维护的，安装后有个doc文件夹，里面有英文的使用文档。为了在全局使用方便，比如安装路径为D:\Application\tesseract，将D:\Application\tesseract添加到环境变量的path中。
为了进行测试，我们在其他文件夹下，比如在桌面建立了一个文件夹进行测试，C:\Users\Administrator\Desktop\pythonTest\tesseract，此文件夹有个验证码图片1.jpg, 在此文件夹打开cmd命令，输入tesseract 1.jpg res，这个是最基础的用法，就是将1.jpg这个图片的文字转为res.text。默认用英语的语言包。运行完后，文件夹里面出现res.text, 内容就是被转换的文字但是一开始，我却发现报以下错误
Error opening data file ….
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory.
Failed loading language ‘eng’
Teseract couldn’t load any languages!
Counld not initialize tesseract

上面的意思就是说不能加载’eng’语言包。请将tessdata的父文件夹路径设置为TESSDATA_PREFIX环境变量值，这个就是说在环境变量中新建一个系统变量，变量名称为TESSDATA_PREFIX，tessdata是放置语言包的文件夹，一般在你安装tesseract的目录下，即tesseract的安装目录就是tessdata的父目录，把ESSDATA_PREFIX的值设置为它就行了
重启电脑(我就是没有干这事儿，浪费了2小时折腾各种文档)，然后按照第二部就能成功了

参考链接： http://www.cnblogs.com/zhongtang/p/5554784.html

kiramario

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
6
评论
tesseract安装使用

tesseract 是一个google支持的开源ocr项目。下面介绍如何使用 OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；下载windows版本的tesseract安装包，我下载的版本是是http://3.onj.me/t
复制链接

扫一扫