Windows环境安装Tesseract-OCR 4.0

忆往昔成风

已于 2022-03-09 11:36:47 修改

阅读量1.4k

点赞数 1

分类专栏：人工智能图像识别文章标签： tesseract-ocr 图像文字识别人工智能机器学习

于 2019-01-30 00:36:35 首次发布

本文链接：https://blog.csdn.net/u013269298/article/details/86679091

版权

人工智能同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

图像识别

1 篇文章 0 订阅

订阅专栏

Tesseract最开始是由惠普实验室在1985年-1994年之间开发的一个OCR（Optical Character Recognition , 光学字符识别）引擎，自2006年之后由Google开发维护。

Github仓库地址：GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

Windows版本下载地址：https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.02-20180621.exe

1.点击下载后的 tesseract-ocr-setup-3.05.02-20180621.exe 进行安装

安装时需要注意电脑上是否有visual c++ 2015 或者 visualc++ 2017的库

2.设置环境变量

1) 设置PATH变量:在PATH变量里添加安装tesseract-OCR 的根目录地址,如 C:\Program Files (x86)\Tesseract-OCR

2) 设置TESSDATA_PREFIX变量：添加安装tesseract-orc目录下的tessdata目录,如 C:\Program Files (x86)\Tesseract-OCR\tessdata

3.打开命令行输入 tesseract -v ,查看是否安装成功

4.导入中文语言包

下载完 chi_sim.traineddata（中文简体语言包）和 chi_tra.traineddata （中文繁体语言包）后，发到安装目录下的tessdata目录

5.测试识别效果

1）准备一张清晰的图片,如 test2.jpg

2) 在图片文件夹下打开命令行工具，输入命令 tesseract test2.jpg result -l eng （ tesseract 【图片名称】【结果保存文本名称】 -l 【语言包】）

3）输入以上命名后会在该文件夹生成一个 result.txt的文本文件,打开查看结果

后面?乱码是测试图片底下灰色的水印,英文库的识别比较稳定，中文库遇到个别字体会出现乱码,可能还需要实际的场景做一些训练,最后需要注意的是tesseract-OCR在识别一张固定格式(如身份证,票据）前，需要先对图片做一些预处理，比如去除水印，去除一些不需要的图案等，才会有理想的识别效果。