Tesseract 教程
介绍
Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统,除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。
安装
Window 安装
下载可执行安装文件:https://code.google.com/p/tesseract-ocr/downloads/list 安装。
Ubuntu 安装
apt-get install tesseract-ocr (如果出现权限不够,可以命令前面加上sudo)
Mac 安装
brew install tesseract
安装 python 库
pip install pytesseract
环境配置
Mac 和 Linux 环境配置
添加环境变量
# /usr/local/share/Tesseract 为语言训练库包的路径,可以编辑。或者直接把下载好的包丢到下面命令等号之后即可 ~/.bash_file export TESSDATA_PREFIX=/usr/local/share/Tesseract
Window 环境变量配置
添加环境变量
# C:\Program Files\Tesseract OCR\Tesseract 为语言训练库路径 setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\Tesseract
使用
命令行终端使用
显示帮助
tesseract --help
显示当前训练语言列表
tesseract --list-langs
识别
tesseract 图片 输出路径 -l 训练库名称
python 代码中使用
# 导入模块 import pytesseract # 导入图片库 【注意】需要安装库: pip install Pillow # 导入库 from PIL import Image # 创建图片对象 image = Image.open("图片路径") # 识别图片 pytesseract.image_to_string(numImage, config="-psm 7"))