Tesserocr的安装(python3应用)

最新推荐文章于 2021-11-03 17:49:29 发布

jim_sang_cn

最新推荐文章于 2021-11-03 17:49:29 发布

阅读量411

点赞数

分类专栏： python 文章标签： tesserocr tesseract python

本文链接：https://blog.csdn.net/weixin_42032194/article/details/87875765

版权

python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

Tesserocr的安装

Tesserocr的安装(python3应用)

Tesserocr的安装(python3应用)

Tesserocr是什么？

https://github.com/tesseract-ocr/tesseract/wiki#introduction上的一段介绍:
Tesseract is an open source text recognizer (OCR) Engine, available under the Apache 2.0 license. It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages.
https://github.com/tesseract-ocr/tesseract#brief-history上的一段介绍:
Tesseract was originally developed at Hewlett-Packard Laboratories Bristol and at Hewlett-Packard Co, Greeley Colorado between 1985 and 1994, with some more changes made in 1996 to port to Windows, and some C++izing in 1998. In 2005 Tesseract was open sourced by HP. Since 2006 it is developed by Google.
自己的理解：Tesserocr是~~Universitätsbibliothek Mannheim(德国曼海姆大学图书馆)的一个开源的项目git的链接~~，OCR （Optical Character Recognition，光学字符识别），OCR和图书馆的关系当然我不用介绍了，大家都明白。tesserocr是包装好的一个库，可以供软件开发的时候来调用。

安装过程（仅介绍windows10）

第一步当然是下载官方包啦?、
根据官方的文档我们去(1)下载，当然是下载最新版本，有32位和64位选择，有DEV字样的是开发版（不建议下载）。
下载完就可以安装了，安装也是相当的简单，一路next就好了。
然后要设置一下路径，环境变量的设置，把tesseract的安装目录加到path里边，比如我的是C:\Program Files (x86)\Tesseract-OCR。
这里还要设置另外一个环境变量，TESSDATA_PREFIX，它的值是tessdata的目录，比如我的是C:\Program Files (x86)\Tesseract-OCR\tessdata。
有很多文章介绍说把这个值设成安装目录即可，但是我的实践是不行。（具体可以按照个人情况判断，如果一个不行，那就尝试另一个）
如果安装的时候没有把tessdata安装的话，我们需要手动去下载（5）。
这里我们可以有三种选择tessdata/tessdata_best/tessdata_fast,第一个应该是比较原始的版本，_best应该是通过精度训练的包，_fast应该是通过速度训练的包。按照个人需求去下载吧。应用都是一样的，可能结果会有所区别吧。
下载后解包，复制到C:\Program Files (x86)\Tesseract-OCR\tessdata目录下就ok了，具体目录看个人情况。
tesseract安装基本完成，我们来测试一下：
打开命令行执行 tesseract -v 得到类似返回就表示安装ok了
```
tesseract v4.0.0.20181030
 leptonica-1.76.0
   libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34:libtiff     4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0
```
接着再执行 tessact --list-langs|more 观察得到返回的第一行
```
List of available languages (167):
```
表示tessdata也被识别到了。
接着我们来安装python库：
我们可以直接运行 pip install tesserocr pillow 来直接安装。如果顺利的话会直接得到这样的字样
```
Successfully installed tesserocr-x.x.x
```
pillow 一般不会报错，我们不用去太多的关注，tesserocr是可能会报错的，这个时候需要我们自己手动去下载相应版本的whl来本地安装了，通过网址(4)我们选择适合的版本下载后，通过命令行 pip install xxxxxxx.whl 来进行安装。

最后我们来测试一下，我们可以找一个简单的英文文字的小图片
测试图片

先用命令行直接对图片进行识别，图片需要再当前目录：

命令:tesseract image.jpg result
返回:Tesseract Open Source OCR Engine v4.0.0.20181030 with Leptonica
返回信息可能会有所不同。并会在当前的目录下生成result.txt的文本文件保存结果
可以通过命令：type result.txt来查看结果
文件内容是：tesseract

这样的结果表示软件是可用的，下一步我们测试一下python调用：
同样也是需要在图片的当前目录下来测试，

首先键入python进入python交互
>>>import tesserocr
>>>from PIL import Image
>>>image=Image.open('image.jpg')
>>>print(tesserocr.image_to_text(image))
tesseract

打印出“tesseract”证明python安装成功，是可用的。

- author：大团结->沈峥
- Email：378763@qq.com(勘误和建议敬请骚扰)
- date:20190222

jim_sang_cn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Tesserocr的安装(python3应用)

Tesserocr的安装

Tesserocr的安装(python3应用)

Tesserocr是什么？

相关的一些网址和工具

安装过程（仅介绍windows10）