Ubuntu系统linux下安装pytesseract和tesseract-ocr

******首先说明:这个工具我尝试了三天,一开始用的时候还不会报错,只是识别出来的东西不是正常的文字,后来又安装了一些东西,会报错,Tesseract-OCR有关的一些错误,这时候就知道是这个工具没有安装好,然后不断的测试,直到,可以成功识别文字为止。

安装pytesseract就直接pip install pytesseract就好了,重要的是ocr

========================================================分割线

ubuntu 16.04:

默认安装的OCR引擎版本是3.04,因此需要安装4.0版本的,则需要:

sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update

 

# 安装OCR引擎
sudo apt-get install tesseract-ocr
# 安装训练数据(equ为数学公式包)
sudo apt-get install tesseract-ocr-eng tesseract-ocr-chi-sim  tesseract-ocr-equ

# 可选安装Leptonica
sudo apt-get install liblept5  libleptonica-dev

 

traineddata存放路径:  $TESSDATA_PREFIX/testdata

3.04版本  ./usr/share/tesseract-ocr/tessdata/

4.0版本  /usr/share/tesseract-ocr/4.00/tessdata/

============================================================分割线

1. 在ubuntu下可以自动安装  

 sudo apt-get install tesseract-ocr

2.编译安装
    a.编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)   

yum install gcc gcc-c++ make


    b.安装tesseract-ocr编译必须的包

yum/apt-get install autoconf automake libtool


    c.增加图像解析需要的包,可以按照指定的格式选择包
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

    ubuntu
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev

    d.下载 leptonica 包: http://www.leptonica.org/source/leptonica-1.71.tar.gz
wget http://www.leptonica.org/source/leptonica-1.71.tar.gz
tar -zxvf ...
./configure
make
make install


需要注意,leptonica的版本问题

3.01 requires at least v1.67 of Leptonica.
3.02 requires at least v1.69 of Leptonica. (Both available in Ubuntu 12.04 Precise Pangolin.)
3.03 requires at least v1.70 of Leptonica. (Both available in Ubuntu 14.04 Trusty Tahr.)

如果版本不一致,会出现问题如下:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Error in findTiffCompression: function not present
Error in pixReadStreamTiff: function not present
Error in pixReadStream: tiff: no pix returned
Error in pixRead: pix not read
Unsupported image type.


    e.下载 tesseract-3.02 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.02.02.tar.gz

wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
./autogen.sh
./configure
make
make install
ldconfig

    f.下载 tesseract-3.02 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz,解压后将 tesseract-ocr/tessdata 下的所有文件全部拷贝到 /usr/local/share/tessdata 下。

 

参考:https://blog.csdn.net/yoara/article/details/42392659#

参考:https://www.cnblogs.com/hupeng1234/p/7136442.html

 

安装pytesseract库和tesseract-ocr引擎的步骤如下: 1. 首先,确保你已经安装了Python和pip。 2. 打开命令行终端,并执行以下命令来安装pytesseract库: ```shell pip install pytesseract ``` 3. 安装完成后,你还需要安装tesseract- Windows: - 访问https://github.com/UB-Mannheim/tesseract/wiki下载最新的tesseract-ocr安装程序。 - 运行安装程序,并按照提示完成安装。 - 在安装过程中,记住tesseract-OCR。 - macOS: - 打开终端,并执行以下命令来安装tesseract-ocr: ```shell brew install tesseract ``` - LinuxUbuntu): - 打开终端,并执行以下命令来安装tesseract-ocr: ```shell sudo apt-get install tesseract-ocr ``` 4. 安装完成后,你还需要配置pytesseract库以使用正确的tesseract-ocr引擎路径。根据你的操作系统,可以按照以下步骤进行配置: - Windows: - 打开pytesseract库的安装目录,例如:C:\Users\huxiu\AppData\Local\Programs\Python\Python35\Lib\site-packages\pytesseract。 - 打开pytesseract.py文件,并找到以下行: ```python tesseract_cmd = 'tesseract' ``` - 将该行修改为你的tesseract-ocr引擎的路径,例如: ```python tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe' ``` - macOS和Linux: - 不需要进行额外的配置,pytesseract库会自动找到正确的tesseract-ocr引擎路径。 5. 现在,你已经成功安装了pytesseract库和tesseract-ocr引擎。你可以在Python代码中导入pytesseract库,并使用它来进行OCR(光学字符识别)操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值