python中的pytesseract包的安装、配置、使用
pytesseract的使用
1.pytesseract包的下载
使用命令下载:pip install pytesseract
2.识别图片的代码
from PIL import Image
import pytesseract
file_path = "test.jpg"
image = Image.open(file_path)
print(pytesseract.image_to_string(image))
图片:
输出:
3.问题解决
1.单独的pytesseract包是无法运行的,需要下载Tesseract-OCR
2.下载链接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
3.安装:按照默认的安装就行,我这里将安装路径改为D:\Programe Files\Tesseract-OCR,默认是C:\Programe Files\Tesseract-OCR
4.配置环境变量(这里配置的是系统变量):
5.找到下载的pytesseract包的pytesseract.py文件,修改一下配置
# 增加tessdata文件的路径变量
tessdata_dir_config = '--tessdata-dir "D:\\Programe Files\\Tesseract-OCR\\tessdata"'
# 修改一下tesseract_cmd变量
# 原来
# tesseract_cmd = 'tesseract'
# 修改为
tesseract_cmd = 'D:/Programe Files/Tesseract-OCR/tesseract.exe'
# 将tessdata_dir_config变量直接添加到image_to_string函数中
def image_to_string(
image, lang=None, config=tessdata_dir_config, nice=0, output_type=Output.STRING, timeout=0,
):
"""
Returns the result of a Tesseract OCR run on the provided image to string
"""
args = [image, 'txt', lang, config, nice, timeout]
至此修改结束,然后再运行上上边的代码就可以运行成功了
4.中文的识别
上边的代码只能识别英文的照片,要想识别中文的图片需要安装语言库,安装过程参考:https://www.cnblogs.com/wangkevin5626/p/9640165.html