猫眼-字体训练

南方的孩子

于 2019-10-27 23:47:31 发布

阅读量1.3k

点赞数

分类专栏：爬虫文章标签： tesseract 字体训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35239633/article/details/102773787

版权

爬虫专栏收录该内容

4 篇文章

订阅专栏

工具

JDK，jTessBoxEditor是运行在java环境上的
jTessBoxEditor：下载链接http://down2.opdown.com:8019/opdown/jTessBoxEditor.zip，下载解压，双击train.bat

准备训练数据

两份字体文件的数字图像
在这里插入图片描述

操作步骤

Tools -> Merge TIFF

生成tif文件
在这里插入图片描述
全选，点击打开

tif文件的命名规范：

[lang].[fontname].exp[num].tif 
lang为语言名称，fontname为字体名称，num为序号

生成box文件

进入tif文件所在目录，打开cmd，执行

tesseract num.font.exp1.tif num.font.exp1 batch.nochop makebox

修改box

点击Open，代开刚刚生成的tif文件，调整char的值

生成tr文件

tesseract num.font.exp1.tif num.font.exp1 nobatch box.train

计算字符集
```
unicharset_extractor num.font.exp1.box
```
会产生一个unicharset文件
创建字体特征文件

创建名为font_properties的文件，没有后缀，写入
```
font 0 0 0 0 0
```
表示普通字体

聚集字符特征

shapeclustering -F font_properties -U unicharset num.font.exp1.tr

mftraining -F font_properties -U unicharset -O unicharset num.font.exp1.tr

cntraining num.font.exp1.tr

重命名文件

将产生的五个文件shapetable，normproto，inttemp，pffmtable，unicharset加上前缀num
合并五个文件
```
combine_tessdata num.
```
会生成num.traineddata文件

到此，训练已完成，将生成的num.traineddata文件放在Tesseract-OCR的tessdata下，便可以用自己训练的字体库识别数字了

pytesseract.image_to_string(img, lang="num")

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。