一、安装库
首先我们需要安装PIL和pytesseract库。
PIL:(Python Imaging Library)是Python平台上的图像处理标准库,功能非常强大。
pytesseract:图像识别库。
我这里使用的是python3.6,PIL不支持python3所以使用如下命令pip install pytesseractpip install pillow1
2
如果是python2,则在命令行执行如下命令:pip install pytesseractpip install PIL1
2
这时候我们去运行上面的代码会发现如下错误:
0:定向脚本监测(OSD)
1: 使用OSD自动分页
2 :自动分页,但是不使用OSD或OCR(Optical Character Recognition,光学字符识别)
3 :全自动分页,但是没有使用OSD(默认)
4 :假设可变大小的一个文本列。
5 :假设垂直对齐文本的单个统一块。
6 :假设一个统一的文本块。
7 :将图像视为单个文本行。
8 :将图像视为单个词。
9 :将图像视为圆中的单个词。
10 :将图像视为单个字符。
为什么这里要强调语言包和psm,因为我们在使用中会用到,
比如多个语言包组合并且视为统一的文本块将使用如下参数:
pytesseract.image_to_string(image,lang="chi_sim+eng",config="-psm 6")
这里我们通过+来合并使用多个语言包。
接下来我们看一下配置好一切的正确结果。import pytesseractfrom PIL import Imageimage = Image.open("../pic/c.png")code = pytesseract.image_to_string(image,lang="chi_sim",config="-psm 6")print(code)1
2
3
4
5
6
标签:tesseract,图像识别,Tesseract,python,ocr,人工智能,语言包,install,OCR
来源: https://blog.csdn.net/qq_45373096/article/details/95220914