【图像识别】windows下安装Tesseract-OCR

Date: 2024.12.31 13:45:40 author: lijianzhan

简述:这篇教程详细介绍了如何在Windows环境下安装Tesseract-OCR,Tesseract OCR 是一款开源的文本识别(OCR)引擎。它主要用于识别图片中的文字,并将其转换为可编辑的文本。Tesseract OCR 是目前公认最优秀、最精确的开源 OCR 系统之一。Tesseract OCR 支持多种语言,包括英文、中文、德文、法文等,并可以通过训练来扩展识别其他语言。它能够处理各种图像文件格式,如JPEG、PNG、TIFF 等。此外,Tesseract OCR 的准确性在同类产品中处于领先地位,对于印刷体文本的识别率高达 95% 以上。Tesseract OCR 主要功能是识别图像中的文字,并配置相应的环境变量,使其能够在pycharm编辑器中运行。

  1. Tesseract-OCR官网(Tesseract-OCR包下载地址)寻找相应的版本下载并安装。
    在这里插入图片描述

  2. 找到下载好的exe文件,点击exe文件,初始化加载完成后会出现弹框,一直点击next直到安装程序完成为止。
    在这里插入图片描述
    在这里插入图片描述

  3. Tesseract-OCR配置环境变量,设置并保存。
    在这里插入图片描述

  4. 做完上述的操作之后,回到pycharm编辑器,安装pytesseract拓展。

pip install pytesseract
  1. 编写一个简单的脚步,测试验证Tesseract-OCR是否起作用。
#-*-coding:utf-8-*
# @project: test-ysh
# @file: get_code_text.py
# @Author: ljz

import pytesseract
from PIL import Image

from utils.image_handle import ImageHandle


class GetCodeText:

    # 获取 识别验证码图片信息
    def get_code_text(self, url):
        # 图像识别二维码
        ImageHandle().decode_base64_image(url)
        # 保存图像
        image = Image.open(r'../utils/image/test.png')
        # OCR图像识别
        pytesseract.pytesseract.tesseract_cmd = r'D:\Tesseract-OCR\tesseract.exe'
        code = pytesseract.image_to_string(image, lang='eng', config='--psm 7 --oem 3 -c tessedit_char_whitelist=0123456789')
        print("验证码:" + code)

        return code
  1. 成功则返回打印输出内容,如下图所示:
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值