python-tesseract 是 tesseract的python封装库,能够用于验证码的识别。尤其是可以通过更改识别库的名称达到使用自己训练出来的库的目的,尤为方便。关于如何训练tesseract-ocr 的识别库见 我的另一篇博文。
下面是官方版安装python-tesseract 在CentOS6.5测试成功。
【官方安装python-tesseract】
yum groupinstall "Development Tools" -y
yum -y install wget cmake
yum -y install libjpeg-devel libpng-devel libtiff-devel zlib-devel
yum -y install gcc gcc-c++ make numpy
wget http://www.leptonica.com/source/leptonica-1.71.tar.gz
tar zxvf leptonica-1.70.tar.gz
cd leptonica-1.70
./configure --prefix=/usr