准备工作
1,安装pillow或者PIL,主要用来打开本地图片
pip install PIL
pip install pillow
2,安装pytesseract,主要用来将图片里面文字转化字符串或者pdf
pip install pytesseract
3,安装 Tesseract-OCR应用程序
进入 链接:https://pan.baidu.com/s/1ed4rxLWd6tbCVKOdiTygOQ
提取码:uttu
下载安装
4,修改 pytesseract 源码中的路径
进入D:\Anaconda3\Lib\site-packages\pytesseract,用Notepad++打开pytesseract.py,将源码第26行的路径修改成安装Tesseract-OCR应用程序路径。
tesseract_cmd = 'tesseract.exe'
修改成
tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
5,安装中文字库
在链接:https://pan.baidu.com/s/1aKfJOhIpsjP3IknQHIIXcQ
提取码:lpqb
下载中文库复制到 Tesseract-OCR 安装目录下的 tessdata 文件夹中
6.测试代码如下
from PIL import Image
import pytesseract
image = Image.open("路径") #打开图片,路径自己改
#print(image.size) #测试图片像素尺寸
text = pytesseract.image_to_string(image, lang='chi_sim') #图片转字符串
text = text.replace("“ ","").replace("。","") #去掉杂质,提纯
print(text) #测试结果
图片可以用下面的测试