潇洒郎：python 图片识别OCR

最新推荐文章于 2024-07-17 12:33:51 发布

潇洒郎

最新推荐文章于 2024-07-17 12:33:51 发布

阅读量262

点赞数

分类专栏： OCR

本文链接：https://blog.csdn.net/qq_32711799/article/details/100437064

版权

OCR 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

OCR与Tesseract介绍
将图片翻译成文字一般被称为光学文字识别（Optical Character Recognition，OCR）。可以实现OCR 的底层库并不多，目前很多库都是使用共同的几个底层OCR 库，或者是在上面进行定制。
Tesseract 是一个OCR 库，目前由Google 赞助（Google 也是一家以OCR 和机器学习技术闻名于世的公司）。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。
除了极高的精确度，Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体（只要这些字体的风格保持不变就可以），也可以识别出任何Unicode 字符。

Tesseract的安装与使用
Tesseract的Windows安装包下载地址为： http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe ，下载后双击直接安装即可。安装完后，需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面，则表示Tesseract安装完成且添加到系统变量中。

安装比用的包：

pip install pytesseract或

pip install pyocr

配置环境
1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的，这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:
* 方法1：将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径（路径因安装过程而异）
* 方法2：修改pytesseract.py文件，修改方法如下

2、

设置训练集的位置
下载的默认训练集也没有添加到系统路径,会报错pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法：
设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序1：

import pytesseract
from PIL import Image

image = Image.open('pic.png')
code = pytesseract.image_to_string(image)
print(code)

失败

实例程序2：

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))

print(text)