python小工具图片转文字

书接上回,为了实现pdf转为可编辑的word,抽空之中学习了一下,图片转文字的功能,根据各大博主所说,其实各种图片识别文字的工具底层大都是封装了Google的 Tesseract OCR,因此要想实现识别图片中的文字,还需要安装 Tesseract

Tesseract官网:http:// https://digi.bib.uni-mannheim.de/tesseract/

下载后一路next就可以,不过需要注意的是,安装的时候不要选择语言包,不然会出错,语言包单独下载,下载后丢到安装目录下的tessdata 文件夹即可,语言包可以在官网中单独下载,也可以在网上找,由于网络限制我 就在网上找了一个网盘里的 ,参考博客:https://blog.csdn.net/jlq_diligence/article/details/127457487

安装好后需要配置环境变量,在path中添加安装路径,系统变量添加 TESSDATA_PREFIX

具体可参考我的

 

配置完成后 win+R cmd  输入tesseract -v 出现版本号则成功

然后在python 中导入对应得包 pytesseract 

修改包中得pytesseract.py文件 修改 tesseract_cmd 参数为tesseract的安装路径

至此,我就可以开始练习啦

网上随便截了个图

import pytesseract
from PIL import Image

#加载图片
img = Image.open(r"D:\L\test2.png")

#转为灰度图像
img = img.convert('L')

#识别文本,使用pytesseract库进行OCR识别
text = pytesseract.image_to_string(img,lang='chi_sim')

#输出识别结果
print(text)

虽然识别的不咋样,但是好歹也转成文字了,影响因素可能比较多,还得研究研究,之前试的一个字体比较大,间距也宽,那个效果就很好。好了祝各位好运。 

  • 8
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值