python 库tesseract的使用

最新推荐文章于 2024-04-16 10:30:00 发布

恋羽_

最新推荐文章于 2024-04-16 10:30:00 发布

阅读量805

点赞数 19

文章标签： python 开发语言图像处理

本文链接：https://blog.csdn.net/BPL_01GR/article/details/136199793

版权

# 项目记录

Tesseract OCR引擎是一个开源的光学字符识别（OCR）引擎，可以将图像中的文本内容转换为可编辑的文本数据。其主要作用包括：

文字识别：Tesseract可以识别图像中的文字内容，包括印刷体和手写体文字。

文字提取：Tesseract可以从图像中提取文字信息，并将其转换为计算机可处理的文本数据。

文字识别精度：Tesseract在处理标准字体和清晰图像时，具有较高的识别精度，可以准确地识别大多数文本内容。

多语言支持：Tesseract支持多种语言的文字识别，可以处理不同语言的文本内容。

扩展性：Tesseract是一个开源项目，可以通过自定义训练数据和配置参数来扩展和优化文字识别的功能。

总的来说，Tesseract OCR引擎可以帮助用户从图像中提取文字信息，实现自动化的文字识别和数据处理。（来自某人工智障的回答）

下载和安装

安装网址：https://digi.bib.uni-mannheim.de/tesseract/

安装完后，需要将tesseract.exe路径放到系统path变量文件中，把上述链接中的tessdata文件夹下的chi_sim.traineddata下载下来，放到本地tessdata下，这个包是中文解析包

使用

def image_to_text(image_path):
    try:
        # 将图像转换为灰度图像
        image = Image.open(image_path)
        # 指定 Tesseract 的完整路径 pytesseract.pytesseract.tesseract_cmd =
        # r'F:\\PyCharmProject\\pythonProject\\TradeTestTool\\venv\\Lib\\site-packages\\tesseract'

        # 使用Tesseract OCR进行文字识别
        text = pytesseract.image_to_string(image, lang='chi_sim', config='--psm 6')

        # 打印识别出的文字
        return text

    except FileNotFoundError:
        print(f"Error: The file {image_path} was not found.")
        return ""
    except Exception as e:
        # 捕获其他所有类型的异常
        print(f"An error occurred: {e}")
        return ""

使用灰度图像对指定地址的图片进行识别，出现错误会自动打印出来

恋羽_

关注

19
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
python 库tesseract的使用

项目记录Tesseract OCR引擎是一个开源的光学字符识别（OCR）引擎，可以将图像中的文本内容转换为可编辑的文本数据。其主要作用包括：文字识别：Tesseract可以识别图像中的文字内容，包括印刷体和手写体文字。文字提取：Tesseract可以从图像中提取文字信息，并将其转换为计算机可处理的文本数据。文字识别精度：Tesseract在处理标准字体和清晰图像时，具有较高的识别精度，可以准确地识别大多数文本内容。
复制链接

扫一扫