OCR文字识别

最新推荐文章于 2024-08-05 20:10:43 发布

幼稚园码农

最新推荐文章于 2024-08-05 20:10:43 发布

阅读量609

点赞数

分类专栏： ocr文字识别文章标签： python

本文链接：https://blog.csdn.net/qq_45507518/article/details/123167342

版权

ocr文字识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

准备工作

1，安装pillow或者PIL，主要用来打开本地图片

pip install PIL
pip install pillow

2，安装pytesseract，主要用来将图片里面文字转化字符串或者pdf

pip install pytesseract

3，安装 Tesseract-OCR应用程序
进入链接：https://pan.baidu.com/s/1ed4rxLWd6tbCVKOdiTygOQ
提取码：uttu
下载安装

4，修改 pytesseract 源码中的路径
进入D:\Anaconda3\Lib\site-packages\pytesseract，用Notepad++打开pytesseract.py，将源码第26行的路径修改成安装Tesseract-OCR应用程序路径。

tesseract_cmd = 'tesseract.exe'

修改成

tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'

5，安装中文字库

在链接：https://pan.baidu.com/s/1aKfJOhIpsjP3IknQHIIXcQ
提取码：lpqb
下载中文库复制到 Tesseract-OCR 安装目录下的 tessdata 文件夹中

6.测试代码如下

from PIL import Image
import pytesseract

image = Image.open("路径") #打开图片，路径自己改
#print(image.size) #测试图片像素尺寸
text = pytesseract.image_to_string(image, lang='chi_sim') #图片转字符串
text = text.replace("“ ","").replace("。","") #去掉杂质，提纯
print(text) #测试结果

图片可以用下面的测试