Tesseract-OCR 安装、中文识别示例

原创于 2025-11-17 00:15:00 发布 · 346 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

1）用Pip和conda安装，各种出错，也是服了

缺少什么libcurl.dll

然后弄了半天不会弄了

2）下载，神经病把github给禁止了

https://digi.bib.uni-mannheim.de/tesseract/

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.3.0.20221214.exe

上面这个链接是可以下载的，尽管版本不是最新的

3）

安装，就是正常的Windows安装

4）下载中文库

https://gitcode.com/open-source-toolkit/90e2f/blob/main/chi_sim%E4%B8%AD%E6%96%87%E8%AF%AD%E8%A8%80%E5%8C%85.zip

在gitcode上是可以下载的，唉

也是服了

下载了放在

D:\Program Files\Tesseract-OCR\tessdata中

5）

报了下面的错

"D:\Program Files\Tesseract-OCR\tesseract.exe" tmp\2.1116.png result -l ch_sim
Error opening data file C:\Users\Lenovo\.conda\envs\objdet\share\tessdata/ch_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'ch_sim'
Tesseract couldn't load any languages!
Could not initialize tesseract.

推测可能是中文库的原因

6）把

chi_sim.traineddata改名成chi_sim2.traineddata

拷贝到目标查找的文件夹中

C:\Users\Lenovo\.conda\envs\objdet\share\tessdata

这个文件夹实际上有个chi_sim.traineddata,但是大小太小了。

7）

"D:\Program Files\Tesseract-OCR\tesseract.exe" tmp\222.png result -l chi_sim2

222.png如下，就是截图了一下上面的文字：

在运行目录生成了result.txt文件，结果是这个样子：

8）可以用，但是结果不尽人意

所以就算是简单的OCR，在实际工作也会有很多问题。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。