python中的pytesseract包的安装、配置、使用

pytesseract的使用

1.pytesseract包的下载

使用命令下载:pip install pytesseract

2.识别图片的代码

from PIL import Image
import pytesseract
file_path = "test.jpg"
image = Image.open(file_path)
print(pytesseract.image_to_string(image))

图片:
英文
输出:
输出结果

3.问题解决

1.单独的pytesseract包是无法运行的,需要下载Tesseract-OCR
2.下载链接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
3.安装:按照默认的安装就行,我这里将安装路径改为D:\Programe Files\Tesseract-OCR,默认是C:\Programe Files\Tesseract-OCR
4.配置环境变量(这里配置的是系统变量):在这里插入图片描述
5.找到下载的pytesseract包的pytesseract.py文件,修改一下配置

# 增加tessdata文件的路径变量
tessdata_dir_config = '--tessdata-dir "D:\\Programe Files\\Tesseract-OCR\\tessdata"'

# 修改一下tesseract_cmd变量
# 原来
# tesseract_cmd = 'tesseract'
# 修改为
tesseract_cmd = 'D:/Programe Files/Tesseract-OCR/tesseract.exe'

# 将tessdata_dir_config变量直接添加到image_to_string函数中
def image_to_string(
    image, lang=None, config=tessdata_dir_config, nice=0, output_type=Output.STRING, timeout=0,
):
    """
    Returns the result of a Tesseract OCR run on the provided image to string
    """
    args = [image, 'txt', lang, config, nice, timeout]

至此修改结束,然后再运行上上边的代码就可以运行成功了

4.中文的识别

上边的代码只能识别英文的照片,要想识别中文的图片需要安装语言库,安装过程参考:https://www.cnblogs.com/wangkevin5626/p/9640165.html

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值