tesseract-4.0.0源码编译安装

安装开发工具

apt-get -y install gcc g++ make cmake autoconf automake libtool pkg-config

安装插件

所有的插件都是可选的,建议全部都安装,这样tesseract就可以支持更多的图片格式

libjpeg

安装依赖nasm

apt-get install nasm

下载地址http://www.linuxfromscratch.org/blfs/view/systemd/general/libjpeg.html

编译libjpeg

tar -xvf libjpeg-turbo-2.0.2.tar.gz
cd libjpeg-turbo-2.0.2
mkdir build
cd build
cmake -DCMAKE_INSTALL_PREFIX=/usr \
      -DCMAKE_BUILD_TYPE=RELEASE \
      -DENABLE_STATIC=FALSE \
      -DCMAKE_INSTALL_DOCDIR=/usr/share/doc/libjpeg-turbo-2.0.2 \
      -DCMAKE_INSTALL_DEFAULT_LIBDIR=lib \
      ..
make
make install
ldconfig

libpng

安装依赖zlib

下载地址 http://www.zlib.net/fossils/

tar -zxf zlib-1.2.11.tar.gz
cd zlib-1.2.11
./configure
make -j 8
make install
ldconfig

下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/libpng.html

编译

tar -xvf libpng-1.6.37.tar.xz
cd libpng-1.6.37
./configure --prefix=/usr --disable-static
make -j8
make install
ldconfig

giflib

安装依赖 xmlto(由于依赖比较多,不安装也是可以编译通过的,需要修改一下doc/Makefile文件)

apt-get install xmlto

giflib 下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/giflib.html

安装了xmlto编译giflib

tar -xvf giflib-5.1.8.tar.gz
cd giflib-5.1.8
make
make install
ldconfig

没有安装xmlto编译giflib

tar -xvf giflib-5.1.8.tar.gz
cd giflib-5.1.8
echo "all:" > doc/Makefile
echo -e "\t@test -z \"\"" >> doc/Makefile
make
make install
ldconfig

libtiff

下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/libtiff.html

编译

tar -xvf tiff-4.0.10.tar.gz
cd tiff-4.0.10
mkdir cmake-build
cd cmake-build
cmake -DCMAKE_INSTALL_DOCDIR=/usr/share/doc/libtiff-4.0.10 \
      -DCMAKE_INSTALL_PREFIX=/usr \
      ..
make -j8
make install
ldconfig

openjpeg

下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/openjpeg2.html

编译openjpeg

tar -xvf openjpeg-2.3.1.tar.gz
cd openjpeg-2.3.1
mkdir build
cd build
cmake -DCMAKE_BUILD_TYPE=Release \
      -DCMAKE_INSTALL_PREFIX=/usr \
      -DBUILD_STATIC_LIBS=OFF \
      ..
make
make install
ldconfig

libwebp

先安装好上面的插件,再安装libwebp

下载地址 http://www.linuxfromscratch.org/blfs/view/systemd/general/libwebp.html

编译

tar -xvf libwebp-1.0.2.tar.gz
cd libwebp-1.0.2
./configure --prefix=/usr/local \
            --enable-libwebpmux \
            --enable-libwebpdemux \
            --enable-libwebpdecoder \
            --enable-libwebpextras \
            --enable-swap-16bit-csp \
            --disable-static
make -j8
make install
ldconfig

安装依赖leptonica

官网http://www.leptonica.com/

要求Leptonica 1.74或者更高版本

下载地址 http://www.leptonica.com/download.html

或者GitHub https://github.com/DanBloomberg/leptonica/releases

这里我们下载最新版本的1.78

tar -xvf leptonica-1.78.0.tar.gz
cd leptonica-1.78.0
./configure
make -j8
make install 
ldconfig

安装tesseract

下载地址 https://github.com/tesseract-ocr/tesseract/releases

tar -xvf tesseract-4.0.0.tar.gz
cd tesseract-4.0.0/
./autogen.sh
./configure
make -j8 
make install
ldconfig

验证

$ tesseract --version
tesseract 4.0.0
 leptonica-1.78.0
  libgif 5.1.8 : libjpeg 6b (libjpeg-turbo 2.0.2) : libpng 1.6.37 : libtiff 4.0.10 : zlib 1.2.11 : libwebp 1.0.2 : libopenjp2 2.3.1
 Found AVX
 Found SSE

安装语言包

下载地址 https://github.com/tesseract-ocr/tessdata/releases

下载 Version 4.0 release Source code (tar.gz)

默认的配置目录为/usr/local/share/tessdata/

我们将刚下载的语言包解压到该目录,解压的时候去掉第一层目录

tar --strip-components=1 -xvf 4.0.0.tar.gz -C /usr/local/share/tessdata/

运行命令列举可用语言包

$ tesseract --list-langs
List of available languages (167):
afr
amh
ara
asm
aze
aze_cyrl
bel
ben
bod
bos
bre
bul
cat
ceb
ces
chi_sim
chi_sim_vert
chi_tra
chi_tra_vert
chr
...

测试一下

$ time tesseract 360-17571119331732.png 360-17571119331732.png -l chi_sim
Tesseract Open Source OCR Engine v4.0.0 with Leptonica

real    0m2.169s
user    0m4.772s
sys 0m0.168s

转出来的文件名为360-17571119331732.png.txt (会自动加上.txt后缀)

$ cat 360-17571119331732.png.txt 
欲 待 汀 酯 活 怡 京 , 清 歇 贝 断 肠 , 这 清 乱 的 尘 世 , 宁 韶 兆 斥 了 多 少 纱 望 和 惧 伤 、 你 想 去
健 一 个 勇 故 的 町 子 , 为 爱 , 为 信 伊 , 蚕 跃 咤 烈 的 奋 斗 一 场 、 你 周 身 光 厂 着 无 人 史 t 的 灵 气
和 光 芒 。 作 有 着 与 伟 人 t 胎 的 才 气 和 名 声 , 你 星 那 桓 离 像 孟 洁 的 町 子 。 你 的 一 弓 狂 心 札
说 , 已 经 川 应 黄 和 雨

曾 绅 以 为 , 相 爱 的 人 一 定 如 眼 宇 , 只 有 林 守 , 情 感 才 能 长 久 , 可 是 , 此 岿 和 俭 岸 只 不
过 是 空 间 的 荣 版 , 邵 无 法 择 长 心 灭 的 旺 高

明 光 苦 荐 , 岁 月 无 声 , 日 孔 不 祯 不 横 的 如 涓 涓 演 水 腐 腐 的 派 去 , 巾 从 身 边 派 去 的 古 有
明 光 , 沉 淀 下 李 的 是 与 你 蹄 相 似 的 干 福 命 快 乐 , 温 薛 和 宇 哈 , 于 我 , 在 这 个 消 罢 郭 怀 受
到 济 意 摸 的 阮 , 只 感 做 一 件 事 , 拗 一 片 绯 红 的 机 名 , 轻 轻 刻 上 我 的 心 语 对 信 伊 , 是
我 今 生 永 万 改 变 的 主 题 ! 而 后 , 李 福 的 寄 往 有 体 的 邵 个 埕 市 , 从 此 , 在 战 心 里 , 于 我 的 生
命 里 , 轻 援 你 沥 的 安 喉 , 静 靛 地 在 岂 月 的 侦 岸 , 为 你 守 候 - 与 永 恒 !

 

一 段 倩 , 反 复 的 皑 星 , 最 后 加 淮 了 屹 月 的 细 东 。 一 跋 迫 起 里 , 一 跌 迫 亿 里 , 最 后 得 到
的 是 什 么 , 最 后 叉 失 去 的 是 什 么 , 或 沐 , 只 有 我 们 在 贾 思 的 时 候 才 会 明 白 , 这 路 的 迫 必
里 , 我 以 得 刹 的 快 乐 往 彼 t 府 苛 要 少 , 当 相 怀 成 疫 的 时 候 , 除 了 对 月 徐 惧 古 之 外 , 什 么 也
不 算 技 刹

一 命 的 简 约 格 调 , 只 怀 用 一 颂 洪 烈 的 看 云 卷 于 舒 , 看 学 节 曰 迪 . 许 多 不
司 时 节 的 事 物 , 必 焦 会 被 光 阮 遇 蒂 , 就 像 暑 经 蔡 的 犯 叶 , 待 生 余 柳 竭 , 终 梅 脱 高 名 狗 的
相 系 根 牲 , 而 我 , 一 真 在 汞 里 , 招 落 一 身 的 负 累 , 永 恒 以 振 的 姚 志 站 立 于 学 风 中 , 易 首 向
看 那 无 智 空 .

参考

转载于:https://www.cnblogs.com/yanhai307/p/10791490.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值