在Linux系统上安装Tesseract OCR通常需要安装一些依赖库和.so文件,类似于OpenCV的安装。本文将详细介绍如何设置和安装Tesseract OCR,确保每一步都顺利进行。
代码使用有空了再写
详细步骤
1. 设置编译环境
首先,确保您的Linux系统已经安装了必要的编译工具:
yum install gcc gcc-c++ make
2. 安装依赖库
接下来,安装Tesseract和Leptonica所需的其他依赖库:
yum install autoconf automake libtool
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel
3. 安装Leptonica库(root)
Leptonica是Tesseract的一个依赖库。以下是安装步骤:
- 下载Leptonica源码:
#已失效 wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz
访问github 自行下载 https://github.com/DanBloomberg/leptonica/releases/tag/1.78.0
- 解压和编译安装Leptonica:
tar -xzvf leptonica-1.78.0.tar.gz
cd leptonica-1.78.0
./configure
make && make install
4. 安装Tesseract-OCR(root)
- 下载Tesseract OCR源码:
#已失效 wget https://codeload.github.com/tesseract-ocr/tesseract/tar.gz/4.1.0
wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/4.1.0.tar.gz -O tesseract-4.1.0.tar.gz
- 解压并安装Tesseract:
tar -xzvf tesseract-4.1.0.tar.gz
cd tesseract-4.1.0/
./autogen.sh
./configure
make && make install
sudo ldconfig
常见问题解决
在安装Tesseract时,可能会遇到以下错误:
错误提示: configure: error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.
解决方法:
确保已正确安装Leptonica,并将相关路径添加到环境变量中:
vim /etc/profile
# 添加以下内容
export LD_LIBRARY_PATH=$LD_LIBRARY_PAYT:/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
刷新环境变量并重新执行安装步骤:
source /etc/profile
./autogen.sh
./configure
make && make install
sudo ldconfig
5. 复制.so文件
为了确保Tesseract能够正常运行,将.so文件复制到系统库路径中:
cp /usr/local/lib/*.so.* /usr/lib64/
6. 下载预训练文件
Tesseract使用预训练数据来识别文字,可以从GitHub下载:
下载地址:https://github.com/tesseract-ocr/tessdata
将下载的语言数据(如chi_sim.traineddata用于中文)放置在/usr/local/share/tessdata目录中。
7、测试安装
验证Tesseract安装是否成功,可以执行以下命令进行测试:
- 检查Tesseract版本,确保安装成功:
tesseract
- 测试文字识别功能,将图像中的文字识别并保存到本地文本文件中:
tesseract img.png test.txt -l eng
总结
通过以上步骤,您应该能够在Linux系统上成功安装并配置Tesseract OCR。如果在安装过程中遇到任何问题,请参考常见问题解决方案,或者查阅Tesseract官方文档获取更多帮助。