python小工具图片转文字

最新推荐文章于 2024-05-22 15:44:18 发布

面向搜索引擎写bug

最新推荐文章于 2024-05-22 15:44:18 发布

阅读量461

点赞数 8

分类专栏： python小工具文章标签： python

本文链接：https://blog.csdn.net/weixin_42867475/article/details/133951137

版权

python小工具专栏收录该内容

5 篇文章 0 订阅

订阅专栏

书接上回，为了实现pdf转为可编辑的word,抽空之中学习了一下，图片转文字的功能，根据各大博主所说，其实各种图片识别文字的工具底层大都是封装了Google的 Tesseract OCR，因此要想实现识别图片中的文字，还需要安装 Tesseract

Tesseract官网：http:// https://digi.bib.uni-mannheim.de/tesseract/

下载后一路next就可以，不过需要注意的是，安装的时候不要选择语言包，不然会出错，语言包单独下载，下载后丢到安装目录下的tessdata 文件夹即可，语言包可以在官网中单独下载，也可以在网上找，由于网络限制我就在网上找了一个网盘里的，参考博客：https://blog.csdn.net/jlq_diligence/article/details/127457487

安装好后需要配置环境变量，在path中添加安装路径，系统变量添加 TESSDATA_PREFIX

具体可参考我的

配置完成后 win+R cmd 输入tesseract -v 出现版本号则成功

然后在python 中导入对应得包 pytesseract

修改包中得pytesseract.py文件修改 tesseract_cmd 参数为tesseract的安装路径

至此，我就可以开始练习啦

网上随便截了个图

import pytesseract
from PIL import Image

#加载图片
img = Image.open(r"D:\L\test2.png")

#转为灰度图像
img = img.convert('L')

#识别文本，使用pytesseract库进行OCR识别
text = pytesseract.image_to_string(img,lang='chi_sim')

#输出识别结果
print(text)