Tesseract-OCR 安装、中文识别示例

1)用Pip和conda安装,各种出错,也是服了

缺少什么libcurl.dll

然后弄了半天不会弄了

2)下载,神经病把github给禁止了

https://digi.bib.uni-mannheim.de/tesseract/

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.3.0.20221214.exe

上面这个链接是可以下载的,尽管版本不是最新的

3)

安装,就是正常的Windows安装 

4)下载中文库

https://gitcode.com/open-source-toolkit/90e2f/blob/main/chi_sim%E4%B8%AD%E6%96%87%E8%AF%AD%E8%A8%80%E5%8C%85.zip

在gitcode上是可以下载的,唉

也是服了

下载了放在

D:\Program Files\Tesseract-OCR\tessdata中

5)

报了下面的错

"D:\Program Files\Tesseract-OCR\tesseract.exe" tmp\2.1116.png result -l ch_sim
Error opening data file C:\Users\Lenovo\.conda\envs\objdet\share\tessdata/ch_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'ch_sim'
Tesseract couldn't load any languages!
Could not initialize tesseract.

推测可能是中文库的原因

6)把

chi_sim.traineddata改名成chi_sim2.traineddata

拷贝到目标查找的文件夹中

C:\Users\Lenovo\.conda\envs\objdet\share\tessdata

这个文件夹实际 上有个chi_sim.traineddata,但是大小太小了。

7)

"D:\Program Files\Tesseract-OCR\tesseract.exe" tmp\222.png result -l chi_sim2

222.png如下,就是截图了一下上面的文字:

在运行目录生成了result.txt文件,结果是这个样子:

8)可以用,但是结果不尽人意

所以就算是简单的OCR,在实际工作也会有很多问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值