本人最近想试试ocr的识别效果所以在win安装了一下tesserocr ,其中有一些坑写出来,供大家参考。
-
首先在 linux上面安装貌似没有太多的坑 直接运行代码
pip install tesserocr
详情请看 参考官网地址 :tesserocr官网 -
在 Windows 下,首先需要下载 tesseract,它为 tesserocr 提供了支持。进入下载页面,可以看到有各种 .exe 文件的下载列表,这里可以选择下载 3.0 版本 。 如下图所示为 3.05 版本 。下载链接
其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本,可以选择下载不带 dev 的版本,例如图中红色框中的文件。一路下一步执行,注意!!! 在最后一步的时候需要 选择 Additional language data(download)选项来安装 OCR 识别支持的语言包,这样 OCR 便可以识别多国语言 。 -
至此我们完成了一大半了,把安装好的文件路径添加到环境变量中,注意在最后用一个 ; 号结尾,如下图所示:
-
然后 安装 tesserocr ,直接pip命令下载会报错,让你去安装一些什么c++的环境?,这样显得太麻烦了,那么我们可不可以简单一点呢?,当然,这是没问题的,首先我们先下载对应的.whl文件
下载地址 : https://github.com/simonflueckiger/tesserocr-windows_build/releases 一定要下载对应版本的,我的是4.0.0,读者可自行选择。
然后 执行命名pip install E:\code\tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
,install 后面的命令是你下载文件的绝对路径,用自己的即可。 -
到此我们可以运行代码尝试,发现报错,如下图所示:
这里还是因为环境的问题导致,我们只需要把下载的 tesseract 文件夹下面的 tessdata 复制放在python的运行环境下即可,我的环境在 Anaconda3 下面,所以我放在他的目录下,入下图所示:
第一步: 复制红色框文件。
第二步: 粘贴到 Anaconda3 目录下。
-
我们试试运行程序,发现大功告成,至此,算是成功安装OCR识别库。
import tesserocr
from PIL import Image
image = Image.open('img.jpg')
result = tesserocr.image_to_text(image)
print(result)