如何在Linux环境中安装Tesseract OCR

码龄23年

已于 2024-11-22 16:28:27 修改

阅读量2.6k

点赞数 10

分类专栏： java（从0到1搭建集成指南）文章标签： linux 运维服务器 ocr

于 2024-08-28 11:15:59 首次发布

本文链接：https://blog.csdn.net/qq_44711486/article/details/141635486

版权

java（从0到1搭建集成指南）专栏收录该内容

10 篇文章

订阅专栏

在Linux系统上安装Tesseract OCR通常需要安装一些依赖库和.so文件，类似于OpenCV的安装。本文将详细介绍如何设置和安装Tesseract OCR，确保每一步都顺利进行。

代码使用有空了再写
在这里插入图片描述

详细步骤

1. 设置编译环境

首先，确保您的Linux系统已经安装了必要的编译工具：

 yum install gcc gcc-c++ make

2. 安装依赖库

接下来，安装Tesseract和Leptonica所需的其他依赖库：

 yum install autoconf automake libtool
 yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

3. 安装Leptonica库(root)

Leptonica是Tesseract的一个依赖库。以下是安装步骤：

下载Leptonica源码：

#已失效 wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz
访问github 自行下载 https://github.com/DanBloomberg/leptonica/releases/tag/1.78.0

解压和编译安装Leptonica：

tar -xzvf leptonica-1.78.0.tar.gz
cd leptonica-1.78.0
./configure
make && make install

4. 安装Tesseract-OCR(root)

下载Tesseract OCR源码：

#已失效 wget https://codeload.github.com/tesseract-ocr/tesseract/tar.gz/4.1.0
wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/4.1.0.tar.gz -O tesseract-4.1.0.tar.gz

解压并安装Tesseract：

tar -xzvf tesseract-4.1.0.tar.gz
cd tesseract-4.1.0/
./autogen.sh
./configure
make && make install
sudo ldconfig

常见问题解决

在安装Tesseract时，可能会遇到以下错误：

错误提示： configure: error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.

解决方法：
确保已正确安装Leptonica，并将相关路径添加到环境变量中：

vim /etc/profile
 
# 添加以下内容
export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

刷新环境变量并重新执行安装步骤：

source /etc/profile 
./autogen.sh
./configure
make && make install
sudo ldconfig

5. 复制.so文件

为了确保Tesseract能够正常运行，将.so文件复制到系统库路径中：

cp /usr/local/lib/*.so.* /usr/lib64/

6. 下载预训练文件

Tesseract使用预训练数据来识别文字，可以从GitHub下载：

下载地址：https://github.com/tesseract-ocr/tessdata
将下载的语言数据（如chi_sim.traineddata用于中文）放置在/usr/local/share/tessdata目录中。

7、测试安装

验证Tesseract安装是否成功，可以执行以下命令进行测试：

检查Tesseract版本，确保安装成功：

tesseract

测试文字识别功能，将图像中的文字识别并保存到本地文本文件中：


tesseract img.png test.txt -l eng

在这里插入图片描述

总结

通过以上步骤，您应该能够在Linux系统上成功安装并配置Tesseract OCR。如果在安装过程中遇到任何问题，请参考常见问题解决方案，或者查阅Tesseract官方文档获取更多帮助。