Tesseract 教程
介绍
Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统,除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。
安装
Window 安装
下载可执行安装文件:https://code.google.com/p/tesseract-ocr/downloads/list 安装。
Ubuntu 安装
sudo apt-get install tesseract-ocr
Mac 安装
brew install tesseract
安装 python 库
pip install pytesseract
环境配置
Mac 和 Linux 环境配置
添加环境变量
# /usr/local/share/Tesseract 为语言训练库路径,
可以编辑 ~/.bash_file
export TESSDATA_PREFIX=/usr/local/share/Tesseract
Window 环境变量配置
添加环境变量
# C:\Program Files\Tesseract OCR\Tesseract 为语言训练库路径
setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\Tesseract
使用
命令行终端使用
显示帮助
tesseract --help
显示当前训练语言列表
tesseract --list-langs
识别
tesseract 图片 输出路径 -l 训练库名称
python 代码中使用
# 导入模块
import pytesseract
# 导入图片库 【注意】需要安装库: pip install Pillow
# 导入库
from PIL import Image
# 创建图片对象
image = Image.open("图片路径")
# 识别图片
pytesseract.image_to_string(numImage, config="-psm 7"))