Tesseract-OCR中文语言包缺失的解决办法

介绍

Tesseract-OCR 5.0的win安装包即使选中中文也会出现无法安装中文的状况,官方文档给出的解释是自己下载语言包即可,但是github下载整个仓库实在是太庞大了,因此这里单独git中文语言包。
后来git Github的时候发现还是很慢,于是转站码云。

如果你懒的操作,我也做好了压缩包,直接拿走不谢
https://download.csdn.net/download/weixin_43031092/12331633

但是有一个问题就是码云上的数据是就的怎么办?
很简单,把下图中的网址换成官方的:
https://github.com/tesseract-ocr/tessdata.git
缺点就是github网速慢!!!

git单文件拉取

我是在tessdata下新建了一个文件夹tmpgitrpo用来拉取文件。按如下代码操作即可拉取四个中文语言包。

Kearney@Kearney MINGW64 /p/Program Files/Tesseract-OCR/tessdata/tmpgitrpo
$ git init
$ git remote add -f origin https://gitee.com/colluslau/tessdata_fast.git
$ git config core.sparsecheckout true
//四个echo用来添加要单独拉取的语言包
$ echo chi_sim.traineddata >> .git/info/sparse-checkout
$ echo chi_sim_vert.traineddata >> .git/info/sparse-checkout
$ echo chi_tra.traineddata >> .git/info/sparse-checkout
$ echo chi_tra_vert.traineddata >> .git/info/sparse-checkout
$ git pull origin master

在这里插入图片描述
拉取完四个文件后将四个语言包剪切到tessdata下即可。然后把临时文件夹tmpgitrpo删掉即可
在这里插入图片描述
在这里插入图片描述

测试

进入:\Program Files\Tesseract-OCR目录按住shift鼠标右键进入powershell
输入如下命令

 .\tesseract --list-langs

在这里插入图片描述

参考

  • https://gitee.com/colluslau/tessdata_fast?_from=gitee_search
  • https://www.jianshu.com/p/74a0441ed9b7
  • https://github.com/tesseract-ocr/tessdoc/blob/master/Data-Files.md
  • https://github.com/UB-Mannheim/tesseract/wiki/Install-additional-language-and-script-models
  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值