Linux(CentOS)下安装tesseract-ocr以及配置依赖leptonica

下载

wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz
wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz

安装依赖:yum install autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel

安装leptonica

tar -xzvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4.tar.gz
./configure --profix=/usr/local/leptonica
make
sudo make install

很多其他教程到这一步就直接开始安装 tesseract,实际上如果你照着教程走的话,再 configure 的时候就会报错:找不到 leptonica。所以我们要先配置一下 leptonica 的环境变量。

打开 /etc/profile

vim /etc/profile

添加以下字段

PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/leptonica/lib/pkgconfig
export PKG_CONFIG_PATH
CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export CPLUS_INCLUDE_PATH
C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export C_INCLUDE_PATH
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/leptonica/lib
export LD_LIBRARY_PATH
LIBRARY_PATH=$LIBRARY_PATH:/usr/local/leptonica/lib
export LIBRARY_PATH
LIBLEPT_HEADERSDIR=/usr/local/leptonica/include/leptonica
export LIBLEPT_HEADERSDIR

应用配置

source /etc/profile

OK,现在我们就可以开始安装 tesseract。

安装 tesseract

tar -xzvf 4.1.0.tar.gz
cd tesseract-4.1.0
./configure --profix=/usr/local/tesseract
make
sudo make install

接下来配置 tesseract 环境变量

打开 /etc/profile

vim /etc/profile

追加以下字段

PATH=$PATH:/usr/local/tesseract/bin
export PATH

应用配置

source /etc/profile

测试一下:

tesseract -v

输出:

tesseract 4.1.0
 leptonica-1.74.4
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7

 Found AVX2
 Found AVX
 Found SSE

OK,到这里,我们就安装成功了,你的安装成功了吗?有任何问题评论告诉我吧!

转载于:https://www.cnblogs.com/dongyangblog/p/11177233.html

Tesseract OCR是一款开源的文字识别引擎,常用于从图像、扫描件中提取文本内容。在Linux安装Tesseract OCR通常包括下载并配置软件包。以下是简要步骤: 1. **更新包列表**: ```sh sudo apt-get update ``` 2. **安装依赖**: 对于Ubuntu或Debian系列,你需要`libtesseract-dev`和`leptonica`库: ```sh sudo apt-get install libtesseract-dev leptonica ``` 如果你使用的是基于RPM的发行版如Fedora或CentOS,可以用`dnf`代替`apt-get`: ```sh sudo dnf install tesseract-devel leptonica ``` 3. **下载Tesseract源码** (如果需要最新版本): - 访问Tesseract GitHub页面(https://github.com/tesseract-ocr/tesseract),找到最新版本的zip文件或tarball。 - 将下载的文件解压到一个目录,例如 `/usr/local/src/tesseract`。 4. **编译安装**: - 进入解压后的目录: ```sh cd /usr/local/src/tesseract ``` - 配置并编译: ```sh ./configure make ``` - 安装Tesseract: ```sh sudo make install ``` 5. **添加路径**: 将Tesseract的bin目录添加到环境变量PATH中,以便系统能全局访问它: ```sh echo "export PATH=/usr/local/bin:$PATH" >> ~/.bashrc source ~/.bashrc ``` 6. **初始化语言数据** (如果你需要识别特定的语言): ```sh sudo tesseract --list-langs tessdata_dir_config=$(tesseract --print-dir) wget https://github.com/tesseract-ocr/tessdata_best/releases/download/<version>/<language>.traineddata -P $tessdata_dir_config ``` `<version>`应替换为你所安装Tesseract版本,`<language>`是你想要识别的语言代码(如`eng`代表英文)。 完成上述步骤后,你应该就可以使用Tesseract命令行工具了。你可以通过`tesseract input_image output_text`这样的命令来识别图像中的文字。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值