1)用Pip和conda安装,各种出错,也是服了
缺少什么libcurl.dll
然后弄了半天不会弄了
2)下载,神经病把github给禁止了
https://digi.bib.uni-mannheim.de/tesseract/
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.3.0.20221214.exe
上面这个链接是可以下载的,尽管版本不是最新的
3)
安装,就是正常的Windows安装

4)下载中文库
在gitcode上是可以下载的,唉
也是服了
下载了放在
D:\Program Files\Tesseract-OCR\tessdata中
5)
报了下面的错
"D:\Program Files\Tesseract-OCR\tesseract.exe" tmp\2.1116.png result -l ch_sim
Error opening data file C:\Users\Lenovo\.conda\envs\objdet\share\tessdata/ch_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'ch_sim'
Tesseract couldn't load any languages!
Could not initialize tesseract.
推测可能是中文库的原因
6)把
chi_sim.traineddata改名成chi_sim2.traineddata
拷贝到目标查找的文件夹中
C:\Users\Lenovo\.conda\envs\objdet\share\tessdata
这个文件夹实际 上有个chi_sim.traineddata,但是大小太小了。

7)
"D:\Program Files\Tesseract-OCR\tesseract.exe" tmp\222.png result -l chi_sim2
222.png如下,就是截图了一下上面的文字:
在运行目录生成了result.txt文件,结果是这个样子:

8)可以用,但是结果不尽人意
所以就算是简单的OCR,在实际工作也会有很多问题。
2万+

被折叠的 条评论
为什么被折叠?



