python 库tesseract的使用

# 项目记录

Tesseract OCR引擎是一个开源的光学字符识别(OCR)引擎,可以将图像中的文本内容转换为可编辑的文本数据。其主要作用包括:

  1. 文字识别:Tesseract可以识别图像中的文字内容,包括印刷体和手写体文字。

  2. 文字提取:Tesseract可以从图像中提取文字信息,并将其转换为计算机可处理的文本数据。

  3. 文字识别精度:Tesseract在处理标准字体和清晰图像时,具有较高的识别精度,可以准确地识别大多数文本内容。

  4. 多语言支持:Tesseract支持多种语言的文字识别,可以处理不同语言的文本内容。

  5. 扩展性:Tesseract是一个开源项目,可以通过自定义训练数据和配置参数来扩展和优化文字识别的功能。

总的来说,Tesseract OCR引擎可以帮助用户从图像中提取文字信息,实现自动化的文字识别和数据处理。(来自某人工智障的回答)

 下载和安装

        安装网址:https://digi.bib.uni-mannheim.de/tesseract/

        安装完后,需要将tesseract.exe路径放到系统path变量文件中,把上述链接中的tessdata文件夹下的chi_sim.traineddata下载下来,放到本地tessdata下,这个包是中文解析包

使用

def image_to_text(image_path):
    try:
        # 将图像转换为灰度图像
        image = Image.open(image_path)
        # 指定 Tesseract 的完整路径 pytesseract.pytesseract.tesseract_cmd =
        # r'F:\\PyCharmProject\\pythonProject\\TradeTestTool\\venv\\Lib\\site-packages\\tesseract'

        # 使用Tesseract OCR进行文字识别
        text = pytesseract.image_to_string(image, lang='chi_sim', config='--psm 6')

        # 打印识别出的文字
        return text

    except FileNotFoundError:
        print(f"Error: The file {image_path} was not found.")
        return ""
    except Exception as e:
        # 捕获其他所有类型的异常
        print(f"An error occurred: {e}")
        return ""

使用灰度图像对指定地址的图片进行识别, 出现错误会自动打印出来

  • 19
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值