在使用python进行图片扫描前需要先下载一个Tesseract OCR
第一种方法可以进官网去下载https://digi.bib.uni-mannheim.de/tesseract/
在这里下载只需要找到合适你电脑环境的版本就行
我是win11系统下载的是最后一个版本
下载完后安装直接一路到底就行了
我们再去cmd下载两个python库
pip install pytesseract
pip install PIL
这时候如果你扫描的图片中不存在中文字体的话,基本就差不多做完准备工作了,但是如果你的需要扫描的图片中存在中文,就需要下载一个中文包,当然博主是个好人,现在双手奉上语言包(里面不止包含了中文)
https://pan.baidu.com/s/1S_Jffe8duiz1IdXhAZJawg
提取码为gg66(懂的都懂)
解压完语言包后打开语言包找到下面这个小东西
将这个小东西粘贴到位于你下载路径内的tessdata文件夹内
到这里基本就做完工作了,是不是很细?是不是手把手?
接下来开始操作
浅浅的调用以下两个大哥库
import pytesseract
from PIL import Image
这里需要注意一下其他博主教的都需要去进行环境配置,我就不,我就不配,环境配置这种东西,做不来,现在教你们直接不做环境配置直接用代码实现
# 显式指定 Tesseract 的安装路径
pytesseract.pytesseract.tesseract_cmd = r'I:\tesseract\tesseract.exe'
#这里的安装路径改成你们自己的就好了
接下来导入图片
#这里没什么好说的直接去复制你的图片地址就好了
img = Image.open(r'')
最后一步实现图片扫描
# 使用 pytesseract 进行文字识别
text = pytesseract.image_to_string(img, lang='chi_sim') # 指定中文简体语言参数
#在这里值得说的是你要是需要扫描的图片内有中文,就需要去指定这个中文包,也就是下载好的语言包
劈里啪啦的讲一堆废话,现在给直接拉到底的小伙伴全部代码
import pytesseract
from PIL import Image
# 显式指定 Tesseract 的安装路径
pytesseract.pytesseract.tesseract_cmd = r'I:\tesseract\tesseract.exe'
# 打开图片
img = Image.open(r'')
# 使用 pytesseract 进行文字识别
text = pytesseract.image_to_string(img, lang='chi_sim') # 指定中文简体语言参数
# 输出识别结果
print(text)