python实现图片扫描手把手教学（解决中文不能识别成功）

最新推荐文章于 2025-03-20 14:54:56 发布

raising sheep

最新推荐文章于 2025-03-20 14:54:56 发布

阅读量850

点赞数

文章标签： python 开发语言 pip

本文链接：https://blog.csdn.net/w3474271593/article/details/134270698

版权

本文详细指导如何在Windows11系统中下载并配置TesseractOCR进行图片扫描，包括下载对应版本、安装、添加中文语言包，以及使用Python库进行无环境配置的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在使用python进行图片扫描前需要先下载一个Tesseract OCR

第一种方法可以进官网去下载https://digi.bib.uni-mannheim.de/tesseract/

在这里下载只需要找到合适你电脑环境的版本就行

我是win11系统下载的是最后一个版本

下载完后安装直接一路到底就行了

我们再去cmd下载两个python库

pip install pytesseract

pip install PIL

这时候如果你扫描的图片中不存在中文字体的话，基本就差不多做完准备工作了，但是如果你的需要扫描的图片中存在中文，就需要下载一个中文包，当然博主是个好人，现在双手奉上语言包（里面不止包含了中文）

https://pan.baidu.com/s/1S_Jffe8duiz1IdXhAZJawg

提取码为gg66（懂的都懂）

解压完语言包后打开语言包找到下面这个小东西

将这个小东西粘贴到位于你下载路径内的tessdata文件夹内

到这里基本就做完工作了，是不是很细？是不是手把手？

接下来开始操作

浅浅的调用以下两个大哥库

import pytesseract
from PIL import Image

这里需要注意一下其他博主教的都需要去进行环境配置，我就不，我就不配，环境配置这种东西，做不来，现在教你们直接不做环境配置直接用代码实现

# 显式指定 Tesseract 的安装路径
pytesseract.pytesseract.tesseract_cmd = r'I:\tesseract\tesseract.exe'
#这里的安装路径改成你们自己的就好了

接下来导入图片

#这里没什么好说的直接去复制你的图片地址就好了
img = Image.open(r'')

最后一步实现图片扫描

# 使用 pytesseract 进行文字识别
text = pytesseract.image_to_string(img, lang='chi_sim')  # 指定中文简体语言参数
#在这里值得说的是你要是需要扫描的图片内有中文，就需要去指定这个中文包，也就是下载好的语言包

劈里啪啦的讲一堆废话，现在给直接拉到底的小伙伴全部代码

import pytesseract
from PIL import Image
# 显式指定 Tesseract 的安装路径
pytesseract.pytesseract.tesseract_cmd = r'I:\tesseract\tesseract.exe'
# 打开图片
img = Image.open(r'')
# 使用 pytesseract 进行文字识别
text = pytesseract.image_to_string(img, lang='chi_sim')  # 指定中文简体语言参数
# 输出识别结果
print(text)