Date: 2024.12.31 13:45:40 author: lijianzhan
简述:这篇教程详细介绍了如何在Windows环境下安装Tesseract-OCR,Tesseract OCR 是一款开源的文本识别(OCR)引擎。它主要用于识别图片中的文字,并将其转换为可编辑的文本。Tesseract OCR 是目前公认最优秀、最精确的开源 OCR 系统之一。Tesseract OCR 支持多种语言,包括英文、中文、德文、法文等,并可以通过训练来扩展识别其他语言。它能够处理各种图像文件格式,如JPEG、PNG、TIFF 等。此外,Tesseract OCR 的准确性在同类产品中处于领先地位,对于印刷体文本的识别率高达 95% 以上。Tesseract OCR 主要功能是识别图像中的文字,并配置相应的环境变量,使其能够在pycharm编辑器中运行。
-
Tesseract-OCR官网(Tesseract-OCR包下载地址)寻找相应的版本下载并安装。
-
找到下载好的exe文件,点击exe文件,初始化加载完成后会出现弹框,一直点击next直到安装程序完成为止。
-
Tesseract-OCR配置环境变量,设置并保存。
-
做完上述的操作之后,回到pycharm编辑器,安装pytesseract拓展。
pip install pytesseract
- 编写一个简单的脚步,测试验证Tesseract-OCR是否起作用。
#-*-coding:utf-8-*
# @project: test-ysh
# @file: get_code_text.py
# @Author: ljz
import pytesseract
from PIL import Image
from utils.image_handle import ImageHandle
class GetCodeText:
# 获取 识别验证码图片信息
def get_code_text(self, url):
# 图像识别二维码
ImageHandle().decode_base64_image(url)
# 保存图像
image = Image.open(r'../utils/image/test.png')
# OCR图像识别
pytesseract.pytesseract.tesseract_cmd = r'D:\Tesseract-OCR\tesseract.exe'
code = pytesseract.image_to_string(image, lang='eng', config='--psm 7 --oem 3 -c tessedit_char_whitelist=0123456789')
print("验证码:" + code)
return code
- 成功则返回打印输出内容,如下图所示: