1. 安装
下载地址:https://tesseract-ocr.github.io/tessdoc/Home.html#binaries
1. 根据系统选择不同的版本
2. 下载最新版本:
3. 一直点击“Next”安装,并选择安装目录
4. 安装好后,需要配置环境变量
1. 添加OCR目录的环境变量:
2. 添加tessdata语言包的环境变量
5. 查看是否配置成功
Win + R
6. 添加语言包
-
语言包下载网址:https://digi.bib.uni-mannheim.de/tesseract/tessdata_fast/
-
下载好后,只需要将语言包文件放在tessdata文件夹中即可。
-
再次使用tesseract --list-langs命令,就可以看到新支持的语言。
2. 使用
1. 默认是能识别英文和数字
tesseract 被识别的图片路径 存放识别结果的文本文件路径
2. 添加中文语言包后可以识别中文
- 但是识别的时候,必须指定语言,否则无法识别成功。
tesseract 被识别的图片路径 存放识别结果的文本文件路径 -l chi_sim