书接上回,为了实现pdf转为可编辑的word,抽空之中学习了一下,图片转文字的功能,根据各大博主所说,其实各种图片识别文字的工具底层大都是封装了Google的 Tesseract OCR,因此要想实现识别图片中的文字,还需要安装 Tesseract
Tesseract官网:http:// https://digi.bib.uni-mannheim.de/tesseract/
下载后一路next就可以,不过需要注意的是,安装的时候不要选择语言包,不然会出错,语言包单独下载,下载后丢到安装目录下的tessdata 文件夹即可,语言包可以在官网中单独下载,也可以在网上找,由于网络限制我 就在网上找了一个网盘里的 ,参考博客:https://blog.csdn.net/jlq_diligence/article/details/127457487
安装好后需要配置环境变量,在path中添加安装路径,系统变量添加 TESSDATA_PREFIX
具体可参考我的
配置完成后 win+R cmd 输入tesseract -v 出现版本号则成功
然后在python 中导入对应得包 pytesseract
修改包中得pytesseract.py文件 修改 tesseract_cmd 参数为tesseract的安装路径
至此,我就可以开始练习啦
网上随便截了个图
import pytesseract
from PIL import Image
#加载图片
img = Image.open(r"D:\L\test2.png")
#转为灰度图像
img = img.convert('L')
#识别文本,使用pytesseract库进行OCR识别
text = pytesseract.image_to_string(img,lang='chi_sim')
#输出识别结果
print(text)
虽然识别的不咋样,但是好歹也转成文字了,影响因素可能比较多,还得研究研究,之前试的一个字体比较大,间距也宽,那个效果就很好。好了祝各位好运。