目录
环境安装及配置
安装PIL:pip install Pillow
安装pytesseract:pip install pytesseract
tesseract-ocr插件安装:
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
安装:选择汉语言包(下面包括中文简体和繁体的横排和竖排)
pytesseract.py文件配置:
安装后,在pytesseract.py文件中修改tesseract_cmd的值为tesseract.exe所在的路径。
try:
from PIL import Image
except ImportError:
import Image
# tesseract_cmd = 'tesseract'
tesseract_cmd = r'D:\OCR\tesseract.exe' # 安装后tesseract-ocr,tessdata同目录下的tesseract.exe所在路径
代码演示
import pytesseract
from PIL import Image
image = Image.open(r'C:\Users\Administrator\Desktop\001.png') # 图片文件所在位置
print(image.size) # 可以打印图片的大小
txt = pytesseract.image_to_string(image,lang='chi_sim') # 英文默认lang参数为eng,可以不指定,中文指定参数lang='chi_sim'(简体中文),lang='chi_tra'(繁体中文)
print(txt)
没有安装中文语言包的需要额外下载,下载后的语言包放到tessdata目录下。文字识别结果往往会存在出入。