部署安装Tesseract OCR，实现以python编程实现中文文本识别功能。

最新推荐文章于 2025-04-11 15:24:35 发布

韭菜盒子白菜饺子

最新推荐文章于 2025-04-11 15:24:35 发布

阅读量1.3k

点赞数

文章标签： ocr python 开发语言

本文链接：https://blog.csdn.net/bsy1111/article/details/133243787

版权

本文详细介绍了在不同操作系统上安装TesseractOCR的步骤，以及如何在Python中使用pytesseract进行图像文本识别，包括简体和繁体中文语言支持。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

要在本地安装Tesseract OCR，您可以按照以下步骤进行操作，具体步骤可能因您使用的操作系统而异：

在Ubuntu或Debian上安装Tesseract OCR：

sudo apt-get update
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-chi-sim  # 安装简体中文语言包
sudo apt-get install tesseract-ocr-chi-tra  # 安装繁体中文语言包

在CentOS或RHEL上安装Tesseract OCR：

sudo yum install epel-release
sudo yum install tesseract
sudo yum install tesseract-langpack-chi-sim  # 安装简体中文语言包
sudo yum install tesseract-langpack-chi-tra  # 安装繁体中文语言包

在macOS上安装Tesseract OCR：

brew install tesseract

注意：在安装完之后，mac系统下终端任务会提示你是否要安装其他的“语言包”，这里一定要输入安装其他语言包的命令，如果现在手贱X掉了，在找这个命令就得自己百度了。

在Windows上安装Tesseract OCR：

前往Tesseract下载页面下载最新的Windows安装程序（通常是.exe文件）。
运行安装程序并按照安装向导的指示进行安装。

安装完成后，您应该可以在命令行中访问Tesseract OCR引擎。您可以通过运行以下命令来检查是否成功安装：

tesseract --version

如何用`python`编程来实现：

安装Tesseract和pytesseract：首先，确保您已经在您的系统上安装了Tesseract OCR引擎。然后，使用pip安装pytesseract库：

pip install pytesseract

导入所需的库：在Python脚本中导入pytesseract和PIL（Python Imaging Library）库：

import pytesseract
from PIL import Image

打开图像文件：使用PIL库打开包含要识别文本的图像文件：

image = Image.open('image.png')  # 替换为包含文本的图像文件的路径

进行OCR文本识别：使用pytesseract.image_to_string函数对图像进行OCR文本识别。您可以指定要使用的语言数据，例如简体中文：

text = pytesseract.image_to_string(image, lang='chi_sim')  # 使用简体中文语言数据

如果需要使用繁体中文，可以将lang参数设置为’chi_tra’。

打印或处理识别的文本：您可以将识别的文本打印到控制台上，或将其保存到文件中，或进一步处理，具体取决于您的需求。

print(text)  # 打印识别的文本

以下是一个完整的示例代码，演示如何使用Python和pytesseract来进行OCR文本识别：


import pytesseract
from PIL import Image

# 打开图像文件
image = Image.open('image.png')  # 替换为包含文本的图像文件的路径

# 进行OCR文本识别，使用简体中文语言数据
text = pytesseract.image_to_string(image, lang='chi_sim')

# 打印识别的文本
print(text)