【图像识别】windows下安装Tesseract-OCR

最新推荐文章于 2025-03-25 10:51:46 发布

喜欢硬编码

最新推荐文章于 2025-03-25 10:51:46 发布

阅读量931

点赞数 5

分类专栏：自动化测试 Python 工具文章标签： windows ocr python

本文链接：https://blog.csdn.net/qq_44304677/article/details/144848517

版权

Python 同时被 3 个专栏收录

11 篇文章

订阅专栏

工具

8 篇文章

订阅专栏

自动化测试

7 篇文章

订阅专栏

Date: 2024.12.31 13:45:40 author: lijianzhan

简述：这篇教程详细介绍了如何在Windows环境下安装Tesseract-OCR，Tesseract OCR 是一款开源的文本识别（OCR）引擎。它主要用于识别图片中的文字，并将其转换为可编辑的文本。Tesseract OCR 是目前公认最优秀、最精确的开源 OCR 系统之一。Tesseract OCR 支持多种语言，包括英文、中文、德文、法文等，并可以通过训练来扩展识别其他语言。它能够处理各种图像文件格式，如JPEG、PNG、TIFF 等。此外，Tesseract OCR 的准确性在同类产品中处于领先地位，对于印刷体文本的识别率高达 95% 以上。Tesseract OCR 主要功能是识别图像中的文字，并配置相应的环境变量，使其能够在pycharm编辑器中运行。

Tesseract-OCR官网（Tesseract-OCR包下载地址）寻找相应的版本下载并安装。
找到下载好的exe文件，点击exe文件，初始化加载完成后会出现弹框，一直点击next直到安装程序完成为止。
Tesseract-OCR配置环境变量，设置并保存。
做完上述的操作之后，回到pycharm编辑器，安装pytesseract拓展。

pip install pytesseract

编写一个简单的脚步，测试验证Tesseract-OCR是否起作用。

#-*-coding:utf-8-*
# @project: test-ysh
# @file: get_code_text.py
# @Author: ljz

import pytesseract
from PIL import Image

from utils.image_handle import ImageHandle


class GetCodeText:

    # 获取 识别验证码图片信息
    def get_code_text(self, url):
        # 图像识别二维码
        ImageHandle().decode_base64_image(url)
        # 保存图像
        image = Image.open(r'../utils/image/test.png')
        # OCR图像识别
        pytesseract.pytesseract.tesseract_cmd = r'D:\Tesseract-OCR\tesseract.exe'
        code = pytesseract.image_to_string(image, lang='eng', config='--psm 7 --oem 3 -c tessedit_char_whitelist=0123456789')
        print("验证码：" + code)

        return code