Tesserocr的安装(python3应用)

Tesserocr的安装(python3应用)

Tesserocr是什么?

https://github.com/tesseract-ocr/tesseract/wiki#introduction上的一段介绍:
Tesseract is an open source text recognizer (OCR) Engine, available under the Apache 2.0 license. It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages.
https://github.com/tesseract-ocr/tesseract#brief-history上的一段介绍:
Tesseract was originally developed at Hewlett-Packard Laboratories Bristol and at Hewlett-Packard Co, Greeley Colorado between 1985 and 1994, with some more changes made in 1996 to port to Windows, and some C++izing in 1998. In 2005 Tesseract was open sourced by HP. Since 2006 it is developed by Google.
自己的理解:Tesserocr是Universitätsbibliothek Mannheim(德国曼海姆大学图书馆)的一个开源的项目git的链接,OCR (Optical Character Recognition,光学字符识别),OCR和图书馆的关系当然我不用介绍了,大家都明白。tesserocr是包装好的一个库,可以供软件开发的时候来调用。

相关的一些网址和工具

安装过程(仅介绍windows10)

  1. 第一步当然是下载官方包啦?、
    根据官方的文档我们去(1)下载,当然是下载最新版本,有32位和64位选择,有DEV字样的是开发版(不建议下载)。
  2. 下载完就可以安装了,安装也是相当的简单,一路next就好了。
  3. 然后要设置一下路径,环境变量的设置,把tesseract的安装目录加到path里边,比如我的是C:\Program Files (x86)\Tesseract-OCR
  4. 这里还要设置另外一个环境变量,TESSDATA_PREFIX,它的值是tessdata的目录,比如我的是C:\Program Files (x86)\Tesseract-OCR\tessdata
    有很多文章介绍说把这个值设成安装目录即可,但是我的实践是不行。(具体可以按照个人情况判断,如果一个不行,那就尝试另一个)
  5. 如果安装的时候没有把tessdata安装的话,我们需要手动去下载(5)。
    这里我们可以有三种选择tessdata/tessdata_best/tessdata_fast,第一个应该是比较原始的版本,_best应该是通过精度训练的包,_fast应该是通过速度训练的包。按照个人需求去下载吧。应用都是一样的,可能结果会有所区别吧。
    下载后解包,复制到C:\Program Files (x86)\Tesseract-OCR\tessdata目录下就ok了,具体目录看个人情况。
  6. tesseract安装基本完成,我们来测试一下:
    打开命令行执行 tesseract -v 得到类似返回就表示安装ok了
    tesseract v4.0.0.20181030
     leptonica-1.76.0
       libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34:libtiff     4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0
    
    接着再执行 tessact --list-langs|more 观察得到返回的第一行
    List of available languages (167):
    
    表示tessdata也被识别到了。
  7. 接着我们来安装python库:
    我们可以直接运行 pip install tesserocr pillow 来直接安装。如果顺利的话会直接得到这样的字样
    Successfully installed tesserocr-x.x.x
    
    pillow 一般不会报错,我们不用去太多的关注,tesserocr是可能会报错的,这个时候需要我们自己手动去下载相应版本的whl来本地安装了,通过网址(4)我们选择适合的版本下载后,通过命令行 pip install xxxxxxx.whl 来进行安装。
  8. 最后我们来测试一下,我们可以找一个简单的英文文字的小图片
    测试图片
    先用命令行直接对图片进行识别,图片需要再当前目录:
    命令:tesseract image.jpg result
    返回:Tesseract Open Source OCR Engine v4.0.0.20181030 with Leptonica
    返回信息可能会有所不同。并会在当前的目录下生成result.txt的文本文件保存结果
    可以通过命令:type result.txt来查看结果
    文件内容是:tesseract
    
    这样的结果表示软件是可用的,下一步我们测试一下python调用:
    同样也是需要在图片的当前目录下来测试,
    首先键入python进入python交互
    >>>import tesserocr
    >>>from PIL import Image
    >>>image=Image.open('image.jpg')
    >>>print(tesserocr.image_to_text(image))
    tesseract
    
    打印出“tesseract”证明python安装成功,是可用的。
    • author:大团结->沈峥
    • Email:378763@qq.com(勘误和建议敬请骚扰)
    • date:20190222
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值