pytesser，图片文本识别工具

最新推荐文章于 2024-04-22 16:07:30 发布

二两天涯

最新推荐文章于 2024-04-22 16:07:30 发布

阅读量3.1k

点赞数 1

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hujunqi/article/details/51683129

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

环境搭建：

Linux下安装python就不说了，这里主要说如何安装pytesser，PIL和Tesseract

1.检查系统是否已经安装以下库：

libpng ， libjpeg ，libtiff，zlib-dev

#yum list | grep libpng

#yum list | grep libjpeg

#yum list | grep libtiff

#yum list | grep zlib

没安装上就安装：

#yum install libpng

#yum install libjpeg

#yum install libtiff

#yum install zlib

2.安装Tesseract：

下载最新版Tesseract，下载地址https://github.com/tesseract-ocr/tesseract/archive/master.zip 我下载的是3.0版本。

解压压缩包：

#tar -zxvf tesseract-3.00.tar.gz

进入解压后的文件夹：

#cd tesseract-3.00

安装：

#./configure --prefix=/opt/tesseract #使用--prefix 来指定安装的目录,我这里的安装目录是/opt/tesseract

#make

#make install

安装完成后要配置PATH，将tesseract的运行脚本加到环境变量中

export PATH=$PATH:/opt/tesseract/bin

（这样导入环境变量在注销当前登录后就失效了。要想永久生效，需要把这行命令添加到环境变量的文件里。有两个文件可选：“/etc/profile”和用户主目录下的“.bash_profile”，“/etc/profile”对系统里所有用户都有效，用户主目录下的“.bash_profile”只对这个用户有效。注：后两种方式需要注销系统重新登陆后才生效）

到http://zh.osdn.jp/projects/sfnet_tesseract-ocr-alt/downloads/eng.traineddata.gz去下载最新的eng.traineddata.gz文件，把解压后的eng.traineddata放到Tesseract的安装目录下(我刚才安装到了/opt/tesseract，所以就把eng.traineddata放到/opt/tesseract/share/tessdata/目录下)，注意，虽然tesseract的svn trunk里也有这个文件，但那个不能用，会报以下error

1	`actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in` `file` `tessdatamanager.cpp, line 55`

错误，详见：http://www.uluga.ubuntuforums.org/showthread.php?p=10248384

试一试是否安装成功：

[root@mobdev87 ~#] tesseract

Usage:tesseract imagename outputbase [-l lang] [configfile [[+|-]varfile]...]

说明安装成功了。

3.安装PIL：

到PIL首页下载适合你的python版本的PIL：http://www.pythonware.com/products/pil/

我python是2.7版本的，下载地址是：http://effbot.org/downloads/Imaging-1.1.7.tar.gz

解压压缩包：

#tar -zxvf Imaging-1.1.7.tar.gz

进入解压后的文件夹：

#cd Imaging-1.1.7

安装：

#python setup.py install

4.安装pytesser：

下载pytesser：http://pytesser.googlecode.com/files/pytesser_v0.0.1.zip 目前只有一个版本。

解压压缩包：

#unzip pytesser_v0.0.1.zip

建议创建一个文件夹，把压缩包放到文件夹里在解压，因为直接使用unzip来解压会把压缩包里的东西解压到当前目录，不易管理。

安装后，pytesser目录下有个“phototest.tif”图片文件作为测试用，直接在目录下写一个python脚本进行测试：

建立一个img_to_text.py文件，代码如下：

1

2

3

4

from pytesser import *

im = Image.open('phototest.tif')

text = image_to_string(im)

print text

运行：

1	`[root@mobdev87 ~#] python` img_to_text.py `2>/dev/null`

结果为：

Tesseract Open Source OCR Engine with LibTiff

12 pt

Anai Amazmgw few dmcotheques provide lukeboxes

courier: Amazingly few dlsconheques provide jukeboxes

mme; Amazmgxy few d,m¢hEquES pm/,de ,meboxes

24 pt:

Arial: Amazingly few discotheques

provide jukeboxes.

Courier : Amazingly few

digcothequee provide

jukeboxee .

Times: _A111ZlZi11gl§' few discotheques provide

jukeboxes.

文章参考：

http://www.oschina.net/question/54100_59400

http://blog.sina.com.cn/s/blog_a4e327c201011rzs.html

Job Done！

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pytesser，图片文本识别工具

环境搭建： Linux下安装python就不说了，这里主要说如何安装pytesser，PIL和Tesseract 1.检查系统是否已经安装以下库： libpng ， libjpeg ，libtiff，zlib-dev #yum list | grep libpng #y
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。