Tesseract-OCR识别中文与训练字库实例

最新推荐文章于 2024-07-24 15:36:57 发布

fiveminus

最新推荐文章于 2024-07-24 15:36:57 发布

阅读量2.5k

点赞数

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nobmr/article/details/78888745

版权

关于中文识别，效果不错并且开源的应该就是Tesseract-OCR了，在Mac下试用了一下，参考了网络上其他人的一些资源，在这里分享一下。

Quick Start

准备工作

下载Tesseract-OCR引擎，到github下查看安装过程，Tesseract-OCR WebSize
下载chi_sim.traindata字库，没有这个默认不能识别中文。
下载JTessBoxEditor，用来训练字库。

开始识别

进入要识别的目录下，键入命令：

tesseract <picture_file> <output_file_name> -l chi_sim

如果源图是电脑上的生成的，如HTML / PS等在这里效果会不错，但是如果你的源图是拍摄所得，那么效果就不太理想了，因此在这里自己训练字库文件。

训练

将原图转换成tif格式的图片文件，用于后面生成box文件。

tif文件的命名格式 ..exp.tif

eg: fiveplus.normal.exp0.tif
- lang: 语言
- fontname: 字体（normal即可）
- num: 下标
生成b

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。