之前在博文中介绍在python中如何调用tesseract ocr引擎,当时主要介绍了shell模式,shell模式需要安装tesseract程序,并且效率相对略低。
今天介绍api形式的调用方式,因为博主主要是基于windows环境进行开发,所以这里的api调用主要是指dll调用(linux之类是.so调用)
二、tesseract dll下载网址
https://github.com/charlesw/tesseract 这个网址中包含了编译好的exe及dll文件,而且x86,x64两种架构都有。
(特别说明:选择x86还是x64版本dll,只依赖于你的python架构,而不是操作系统的架构,即便是在64位操作系统,假如你的python是32位版本,这里也要选用x86版本dll)。
博主使用的64位Python,所以进入 tesseract/src/lib/TesseractOcr/x64/目录,分别下载 liblept172.dll、libtesseract304.dll 两个dll。(若是你想用shell形式调用,也可以下载tesseract.exe,与之前的博文改善的地方,就是免去安装tesseract。)
三、语言包 下载网址(tessdata)
注意说明里有这一段话,You will also need to download the language data files for tesseract 3.04 fromtesseract-ocr.
网址:https://github.com/tesseract-ocr/tesseract,下载其中的tessdata目录即可,跟dll放到同一目录。
四、vc 2015