Tesserocr的安装(python3应用)
Tesserocr是什么?
https://github.com/tesseract-ocr/tesseract/wiki#introduction上的一段介绍:
Tesseract is an open source text recognizer (OCR) Engine, available under the Apache 2.0 license. It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages.
https://github.com/tesseract-ocr/tesseract#brief-history上的一段介绍:
Tesseract was originally developed at Hewlett-Packard Laboratories Bristol and at Hewlett-Packard Co, Greeley Colorado between 1985 and 1994, with some more changes made in 1996 to port to Windows, and some C++izing in 1998. In 2005 Tesseract was open sourced by HP. Since 2006 it is developed by Google.
自己的理解:Tesserocr是Universitätsbibliothek Mannheim(德国曼海姆大学图书馆)的一个开源的项目git的链接,OCR (Optical Character Recognition,光学字符识别),OCR和图书馆的关系当然我不用介绍了,大家都明白。tesserocr是包装好的一个库,可以供软件开发的时候来调用。
相关的一些网址和工具
- tesseract的windows官方发布(1)
- GitHub上的tessoract-ocr(2)
- PyPI上的tesserocr 2.4.0(3)
- windows的whl发布(4)
- 有些时候pip自动安装失败,可能需要手动下载对应的版本pip install xxx.whl来手动安装。
- tesserocr DATA FILEs(5)
安装过程(仅介绍windows10)
- 第一步当然是下载官方包啦?、
根据官方的文档我们去(1)下载,当然是下载最新版本,有32位和64位选择,有DEV字样的是开发版(不建议下载)。 - 下载完就可以安装了,安装也是相当的简单,一路next就好了。
- 然后要设置一下路径,环境变量的设置,把tesseract的安装目录加到path里边,比如我的是C:\Program Files (x86)\Tesseract-OCR。
- 这里还要设置另外一个环境变量,TESSDATA_PREFIX,它的值是tessdata的目录,比如我的是C:\Program Files (x86)\Tesseract-OCR\tessdata。
有很多文章介绍说把这个值设成安装目录即可,但是我的实践是不行。(具体可以按照个人情况判断,如果一个不行,那就尝试另一个) - 如果安装的时候没有把tessdata安装的话,我们需要手动去下载(5)。
这里我们可以有三种选择tessdata/tessdata_best/tessdata_fast,第一个应该是比较原始的版本,_best应该是通过精度训练的包,_fast应该是通过速度训练的包。按照个人需求去下载吧。应用都是一样的,可能结果会有所区别吧。
下载后解包,复制到C:\Program Files (x86)\Tesseract-OCR\tessdata目录下就ok了,具体目录看个人情况。 - tesseract安装基本完成,我们来测试一下:
打开命令行执行 tesseract -v 得到类似返回就表示安装ok了
接着再执行 tessact --list-langs|more 观察得到返回的第一行tesseract v4.0.0.20181030 leptonica-1.76.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34:libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0
表示tessdata也被识别到了。List of available languages (167):
- 接着我们来安装python库:
我们可以直接运行 pip install tesserocr pillow 来直接安装。如果顺利的话会直接得到这样的字样
pillow 一般不会报错,我们不用去太多的关注,tesserocr是可能会报错的,这个时候需要我们自己手动去下载相应版本的whl来本地安装了,通过网址(4)我们选择适合的版本下载后,通过命令行 pip install xxxxxxx.whl 来进行安装。Successfully installed tesserocr-x.x.x
- 最后我们来测试一下,我们可以找一个简单的英文文字的小图片
先用命令行直接对图片进行识别,图片需要再当前目录:
这样的结果表示软件是可用的,下一步我们测试一下python调用:命令:tesseract image.jpg result 返回:Tesseract Open Source OCR Engine v4.0.0.20181030 with Leptonica 返回信息可能会有所不同。并会在当前的目录下生成result.txt的文本文件保存结果 可以通过命令:type result.txt来查看结果 文件内容是:tesseract
同样也是需要在图片的当前目录下来测试,
打印出“tesseract”证明python安装成功,是可用的。首先键入python进入python交互 >>>import tesserocr >>>from PIL import Image >>>image=Image.open('image.jpg') >>>print(tesserocr.image_to_text(image)) tesseract
-
- author:大团结->沈峥
- Email:378763@qq.com(勘误和建议敬请骚扰)
- date:20190222