Tesseract-OCR 是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
一、环境配置
1、下载
我下载了最后一个最新的,下载完成直接安装。
2、环境变量配置
为了在任意终端可以使用,需配置环境变量。
在用户变量和系统变量的Path中添加ocr的安装路径。
3、中文环境配置
要是中文环境不能用,打开tessdata_fast ,下载简体中文包。
将下载好的文件复制到安装目录下的tessdata文件夹中。
二、测试
1、测试文件准备
网上随便截了张图放在下面文件夹。
2、测试过程
在此文件夹执行cmd命令,回车,弹出终端。
在弹出的终端中输入以下命令。
tesseract 图片 要保存文件名 -l 中文包
tesseract test.png 中文测试 -l chi_sim
执行完成,在图片所在目录生成txt文件。
3、查看结果
准确度还可以。