tesseract -图像识别

文章介绍了如何下载并配置TesseractOCR的环境变量,包括在用户和系统变量中添加路径。然后,通过Python的pyocr库进行验证,但遇到在Jenkins中无法初始化OCR工具的问题,即使在CMD中可以正常工作。作者提出问题寻求帮助,希望找到Jenkins中调用pyocr失败的原因。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

20230306

下载链接:https://digi.bib.uni-mannheim.de/tesseract/

如下选择最新的版本,这里我选择tesseract-ocr-w64-setup-5.3.0.20221222.exe

配置tesseract的环境变量

  1. 在用户变量path中,添加安装路径如:D:\Program Files\Tesseract-OCR

  1. 在系统变量path中,添加安装路径如:D:\Program Files\Tesseract-OCR

  1. 在系统变量中,新建变量名:TESSDATA_PREFIX

验证安装与环境配置成功:

有如下python模块操作tesseract

  • pyocr

国内源:pip install -i https://pypi.mirrors.ustc.edu.cn/simple/ pyocr (亲测可用

import pyocr
import pyocr.builders

# 初始化
tools = pyocr.get_available_tools()

# 判断tools列表中是否为空,为空则初始化失败
if len(tools) == 0:    
    print("No OCR tool found")    
    sys.exit(1)

报错:No OCR tool found

  1. 如果在cmd中就无法获取tool,请检查PATH中是否有tesseract?path是否配正确?

  1. 如果cmd中能正常获取tool如下:

而pycharm不可以的话,请在环境变量用户变量中编辑pycharm,增加如下路径

  • pytesseract

from pytesseract import pytesseract

# 定义tesseract.exe的路径
path_to_tesseract = r"C:\Program Files\Tesseract-OCR\tesseract.exe"


# Providing the tesseract executable
# location to pytesseract library
pytesseract.tesseract_cmd = path_to_tesseract

如果你有其他任何疑问,可以参考此链接:https://openpaper.work/download


20230316

发现一个问题:

当我本地测试用pyocr初始化去获取tesseract工具时,是可以获取到的,但是通过Jenkins去,却获取不到,目前仍然知晓原因,注意,Jenkins调用cmd是可行的。如果有人知道为什么或者有什么建议,可以在文章下面评论!


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值