tesseract-ocr下载以及训练

本文详述了tesseract-ocr 3.x版本的下载与中文库安装,以及如何训练识别中文,包括制作tif文件、Box文件,修改识别错误并生成训练后的字库文件的完整步骤。适合需要进行OCR图片识别训练的读者。
摘要由CSDN通过智能技术生成

tesseract-ocr 3.x版本下载以及训练

(本人也是新手,哪里如果写的不对,欢迎在评论指出)

tesseract的下载链接如下(建议下载3.x版本,因为3.x版本跟4.0版本差别有点大,我没操作过4.0版本)
https://digi.bib.uni-mannheim.de/tesseract/

中文库地址(chi_sim.traineddata是中文简体库文件):
https://github.com/tesseract-ocr/tessdata

jTessBoxEditor工具下载(工具我用的 jTessBoxEditor2.0.zip,这个需要java环境,默认你已经配置好了):
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值