一、ubuntu20.04实现tesseract-ocr的识别
嵌入式硬件rv1126,需要识别不同产品的字符,短期内完成采用基于tesseract-ocr算法实现。整个过程如下。
1.1 配置编译环境
sudo apt install build-essential
1.2 下载源代码并解压
下载tesseract和leptonica代码,下载地址:
https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.0.1.tar.gz
http://www.leptonica.org/source/leptonica-1.82.0.tar.gz
使用解压命令对压缩包进行解压:
tar -vxf *.gz
1.3 编译与安装
1.3.1 编译 libjpeg
编译leptonica时需要用到jpeg库,所以首先编译libjpeg;
下载源码:Reference Sources – JPEG Reference (jpegclub.org)
解压之后,进行编译:
mkdir build
cd build
cmake ..
make
sudo make install
1.3.2 安装与编译leptonica
进入leptonica目录,编译与安装,命令为:
cd leptonica-1.82.0
./configure && make && sudo make install
leptonica编译好之后需要添加到环境变量里,方便tesseract的编译。
通过命令打开profile文件。
sudo vim /etc/profile或者sudo gedit /etc/profile
如果没有安装,可