tesseract-ocr-4.X.X安装部署

tesseract-ocr-4.X.X安装部署

Maven安装依赖包

cd D:\jzdev2\infra\components\tesseract-ocr\lib
mvn install:install-file -Dpackaging=jar -DgeneratePom=true -DcreateChecksum=true -DgroupId=com.sun.media -DartifactId=jai_imageio -Dversion=1.1 -Dfile=jai_imageio-1.1.jar

Window下部署

  1. 安装chrome

  2. 安装jdk-8

  3. 创建目录:

    d:/work/tesseract-ocr-4.1.1/
    d:/work/tesseract-ocr-4.1.1/temp/
    d:/data/log/tesseract-ocr-4.1.1/

  4. 编写启动脚本 start.bat

  5. 设置定时任务,故障自启动

Tess4j注意点

  1. 不同版本的tess4j使用不同的tessdata,否则会报错;
  2. 不同版本的tess4j适用于不同的windows版本,例如 4.4.0可以跑在win2016上,而4.1.1就不行;

Linux下部署

1. 准备Linux环境
Tesseract 4.0.beta-1 
Leptonica 1.75.3 (via Lept4J) 32- and 64-bit DLLs
The Linux shared object library (libtesseract.so) equivalent to the DLL is available in Tesseract 4.0.beta-1
wget http://www.leptonica.org/source/leptonica-1.75.3.tar.gz
wget https://github.com/tesseract-ocr/tesseract/archive/4.0.0-beta.1.tar.gz

tar -zxf leptonica-1.75.3.tar.gz
./autobuild
./configure
make -j
make install

cd /usr/local/lib
[root@localhost lib]# ll
total 34408
-rw-r--r--. 1 root root 15737144 Jul 18 09:00 liblept.a
-rwxr-xr-x. 1 root root      947 Jul 18 09:00 liblept.la
lrwxrwxrwx. 1 root root       16 Jul 18 09:00 liblept.so -> liblept.so.5.0.2
lrwxrwxrwx. 1 root root       16 Jul 18 09:00 liblept.so.5 -> liblept.so.5.0.3
-rwxr-xr-x. 1 root root  9613208 Jul 18 09:00 liblept.so.5.0.2
-rwxr-xr-x. 1 root root  9872024 Jul 18 07:38 liblept.so.5.0.3
drwxr-xr-x. 2 root root       21 Jul 18 09:00 pkgconfig


tar -zxf 4.0.0-beta.1.tar.gz
cd tesseract-4.0.0-beta.1/
./autogen.sh
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig LIBLEPT_HEADERSDIR=/usr/local/include ./configure --with-extra-includes=/usr/local/include --with-extra-libraries=/usr/local/lib
LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include" make -j
make install
ldconfig

[root@localhost lib]# ll
total 181208
-rw-r--r--. 1 root root  15737144 Jul 18 09:00 liblept.a
-rwxr-xr-x. 1 root root       947 Jul 18 09:00 liblept.la
lrwxrwxrwx. 1 root root        16 Jul 18 09:00 liblept.so -> liblept.so.5.0.2
lrwxrwxrwx. 1 root root        16 Jul 18 09:00 liblept.so.5 -> liblept.so.5.0.3
-rwxr-xr-x. 1 root root   9613208 Jul 18 09:00 liblept.so.5.0.2
-rwxr-xr-x. 1 root root   9872024 Jul 18 07:38 liblept.so.5.0.3
-rw-r--r--. 1 root root 111330880 Jul 18 09:26 libtesseract.a
-rwxr-xr-x. 1 root root      1040 Jul 18 09:26 libtesseract.la
lrwxrwxrwx. 1 root root        21 Jul 18 09:26 libtesseract.so -> libtesseract.so.4.0.0
lrwxrwxrwx. 1 root root        21 Jul 18 09:26 libtesseract.so.4 -> libtesseract.so.4.0.0
-rwxr-xr-x. 1 root root  38982880 Jul 18 09:26 libtesseract.so.4.0.0
drwxr-xr-x. 2 root root        41 Jul 18 09:26 pkgconfig
[root@localhost lib]# 


tesseract -v
2. Docker打包 Centos7依赖环境
docker tag centos7_tesseract-ocr:4.0.0-beta.1 172.18.1.82:5000/centos7_tesseract-ocr:4.0.0-beta.1
docker push 172.18.1.82:5000/centos7_tesseract-ocr:4.0.0-beta.1
docker pull 172.18.1.82:5000/centos7_tesseract-ocr:4.0.0-beta.1
docker tag 172.18.1.82:5000/centos7_tesseract-ocr:4.0.0-beta.1 prod-registry.ys.jzdev.info:5000/centos7_tesseract-ocr:4.0.0-beta.1
docker push prod-registry.ys.jzdev.info:5000/centos7_tesseract-ocr:4.0.0-beta.1
3. Docker打包 tesseract-ocr-prod
docker build -t tesseract-ocr-prod:4.1.1 ./
docker images
docker tag tesseract-ocr-prod:4.1.1 172.18.1.82:5000/tesseract-ocr-prod:4.1.1
docker push 172.18.1.82:5000/tesseract-ocr-prod:4.1.1
docker pull 172.18.1.82:5000/tesseract-ocr-prod:4.1.1
docker tag 172.18.1.82:5000/tesseract-ocr-prod:4.1.1 prod-registry.ys.jzdev.info:5000/tesseract-ocr-prod:4.1.1
docker push prod-registry.ys.jzdev.info:5000/tesseract-ocr-prod:4.1.1

docker run -d -v /data/log/:/data/log/ -p 16080:16080 tesseract-ocr-prod:4.1.1 /bin/bash
docker ps
docker exec -it xxxxxxx /bin/bash
4. 运行Docker
[root@win2k8-051 tesseract-ocr-4.1.1]# vi target/classes/application.properties
改为test或者prod
docker build -t tesseract-ocr:4.1.1 ./
docker images
docker run -d -v /data/log/:/data/log/ -p 16080:16080 tesseract-ocr:4.1.1 /bin/bash
docker ps
docker exec -it xxxxxxx /bin/bash
### 回答1: tesseract-ocr-3.4.chi.rar是一个中文OCR(Optical Character Recognition)开源软件的压缩包,它是Tesseract OCR引擎的一个版本。Tesseract OCR引擎是一个被广泛应用于文字识别的工具,可以将印刷体文本转换为机器可读的文本形式。 这个版本的tesseract-ocr-3.4.chi.rar主要针对中文文本的识别和处理。通过使用这个软件包,用户可以将扫描的纸质文档、图像或其他形式的文本转换为可编辑的电子文档。这在各种应用中非常有用,比如自动化数据输入、文档分类、OCR字幕等。 该软件包中也包含了一些训练数据和字典,用于提高中文文字识别的准确性和适应性。它还提供了一些API和命令行工具,使得开发人员可以集成这个OCR引擎到自己的应用程序中。 用户需要先解压缩这个rar文件,并按照安装说明进行安装和配置,才能使用这个OCR引擎。安装完成后,用户可以使用提供的命令行工具或者调用API接口进行中文文字识别。用户还可以根据自己的需求进行定制和优化,比如增加字典、改进训练数据等。 总之,tesseract-ocr-3.4.chi.rar是一个非常有用的中文OCR工具,它能够帮助用户快速、准确地将中文文本转换为可编辑的电子文档,为各种应用提供便利和支持。 ### 回答2: tesseract-ocr-3.4.chi.rar是一个可执行程序和数据文件的压缩包。其中的"tesseract-ocr"是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以将图像中的文字转换为可编辑和可搜索的文本。而"3.4"代表了版本号,表明这是该引擎的第3.4版本。"chi"表示该版本是用于中文字符识别的。 在解压包中,可以找到一些必要的文件和文件夹。其中的可执行文件可以在命令行或终端中使用,让用户通过简单的命令来识别图像中的中文字符。数据文件包含了训练好的模型和字典,用于识别各种不同的中文字符。根据具体需要,用户可以根据自己的要求进行自定义配置和修改。 使用tesseract-ocr-3.4.chi.rar之前,首先需要安装和配置tesseract引擎。用户可以根据操作系统的不同,下载相应版本的tesseract引擎,并按照官方指南进行安装和配置。一旦安装完成,并且环境变量已正确配置,就可以使用该引擎进行中文字符识别。 tesseract-ocr-3.4.chi.rar的存在和使用让用户能够更方便地进行中文字符的识别工作,无论是个人还是在开发项目中。通过利用OCR技术,可以提高工作效率、提取文本信息并进行后续的自动化处理。这对于涉及大量的文本数据的场景,如扫描文档、图像处理、文字识别等,具有非常重要的作用。 ### 回答3: tesseract-ocr-3.4.chi.rar是一个中文字符的光学字符识别(OCR)引擎。Tesseract是一个广泛使用的OCR引擎,可用于将印刷体字体的图像识别为文本。而tesseract-ocr-3.4.chi.rar则是Tesseract的中文语言数据包,使其能够识别中文字符。 这个数据包包含了训练Tesseract所需的中文字符图像和标签。利用这些数据,Tesseract可以学习中文字符的特征和模式,并能根据输入的中文图像识别出对应的文字。 使用tesseract-ocr-3.4.chi.rar,你可以在自己的应用程序中集成OCR功能,用于识别中文图像中的文字。你可以将图像输入到Tesseract引擎中,并获得相应的文字输出。 这个中文数据包提供了一种简便的方式来识别中文字符,因为它已经在训练过程中使用了大量的中文字符图像样本。这使Tesseract能够准确地识别出中文图像中的文字,从而帮助用户更高效地处理中文文字的识别需求。 总之,tesseract-ocr-3.4.chi.rar是一个用于中文OCR识别的数据包,为Tesseract提供了识别中文字符的能力。它可以帮助用户将中文图像转化为可编辑的文本,具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值