1. 简介
Tesseract是一款OCR(光学字符识别)引擎。Tesseract4的OCR引擎使用LSTM实现,同时保留Tesseract3的识别模式
Tesseract支持UTF-8,能识别超过100种语言,开箱即用
Tesseract支持多种输出格式:纯文本、HTML、PDF、TSV等
Tesseract只支持命令行,要用GUI的话看第三方库
2. 安装
2.1 tesseract
- 下载最新版,带dev的为开发版,本人下载的是
tesseract-ocr-w64-setup-v5.0.0.20190623.exe
- 勾选Additional script data (download)和Additional language data (download),下载速度很慢,请自行选择需要的语言
- 配置环境变量,Path:
C:\Program Files\Tesseract-OCR
- 配置环境变量,新建变量名
TESSDATA_PREFIX
,变量值C:\Program Files\Tesseract-OCR\tessdata;
- 命令行
tesseract -v
看版本
`
2.2 pytesseract
pip install pytesseract
pip install pillow
3 测试
3.1 tesseract
命令行执行命令tesseract image.png result
,识别结果输出为result.txt
结果为:
Python3WebSpider
3.2 pytesseract
import pytesseract
from PIL import Image
image = Image.open("image.png")
print(pytesseract.image_to_string(image))
结果为:
Python3WebSpider
尝试识别中文
import pytesseract
from PIL import Image
import matplotlib.pyplot as plt
image = Image.open("image.jpg")
plt.imshow(image)
plt.show()
print(pytesseract.image_to_string(image, lang='chi_sim'))
结果为:
富强民主文明和谐
自由平等公正法治
爱围敬业诚信友善
中文识别效果很差
提高识别准确率需训练字库