简介

pytesseract是基于谷歌的tesseract的OCR包,支持识别一些简单的数字、字母、中文。

安装

安装引擎

下载地址: https://digi.bib.uni-mannheim.de/tesseract/ 一般是Windows 64位系统最新版:

基于pytesseract的OCR图片识别_Image

如果要识别中文,注意选中中文模块。

基于pytesseract的OCR图片识别_64位系统_02

基于pytesseract的OCR图片识别_github_03


把tesseract.exe目录加入Path,如D:\Program Files\Tesseract-OCR

安装pytesseract包

pip install Pillow
pip install pytesseract
  • 1.
  • 2.

测试代码

基于pytesseract的OCR图片识别_64位系统_04

from PIL import Image
import pytesseract

res = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(res)
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.

基于pytesseract的OCR图片识别_ocr_05

相关链接

 https://github.com/tesseract-ocr/tesseract