1. Tesseract基础
1.1 Tesseract简介
Tesseract是一个将图像翻译成文字的OCR(光学文字识别),目前由google赞助。它是目前公认最优秀、最准确的开源OCR库,具有很高的识别度,也具有很高的灵活性,可以通过训练识别任何字体
1.2 Tesseract安装
- window安装
- 安装完成后,如果想要在命令行中使用Tesseract,需要设置环境变量,在window下吧tesseract.exe所在的路径添加到path环境变量中
- Mac安装,有四种方式:
- brew install --with-training-tools tesseract——安装tesseract, 同时安装训练工具
- brew install --all-languages tesseract——安装tesseract,同时它还会安装所有语言
- brew install --all-languages --with-training-tools tesseract——安装附加组件
- brew install tesseract——安装tesseract,但是不安装训练工具
- Mac安装brew命令
- 终端内输入:/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”,下载过程中需要输入电脑密码
1.3 Tesseract使用
基本命令:tesseract 图片路径 文件路径
tesseract demo.jpeg result
1.4 下载语言库
这里可以根据自己的需求来下载所需要的语言库,例如chi_sim.traineddata为简体中文:
下载地址:https://github.com/tesseract-ocr/tessdata
将chi_sim.traineddata下载后,需要将它放在tesseract安装路径下的share/tessdata目录下
2. Tesseract在Python中的使用
- 安装模块:pip install pytesseract
- pytesseract模块要与PIL一起使用
- 实例
import pytesseract
from PIL import Image
# 打开图片
image = Image.open('demo2.jpeg')
# 识别结果,第一个参数是图片,第二个参数是语言
print(pytesseract.image_to_string(image, land='eng'))
2V¥K