借助jTessBoxEditor工具训练tesseract识别库

一如既往的坚持

已于 2022-11-10 17:05:22 修改

阅读量943

点赞数 1

分类专栏： python 文章标签： OCR Tesseract jTessBoxEditor 验证码识别训练数据

于 2022-11-10 17:00:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hylwan8884658/article/details/127791726

版权

jTessBoxEditor工具

在这里插入图片描述

训练步骤

准备样本图片
准备100张验证码图片，名字后缀.png
合并样本图片
tool->Merges Till,将之前的100张图片选中，然后合并，命名为num.font.exp0.tif。
备注：num是语言名称，font是字体名称
生成box文件
tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox
修改box文件
切换到jTessBoxEditor工具的Box Editor页，点击open，打开前面的tiff文件num.font.exp0.tif，工具会自动加载对应的box文件。
检查box数据，将识别错误的数据进行调整和修正。逐个核对tif文件的box数据，全部检查结束并保存
生成font_properties文件
定义字体特征文件。创建一个名称为font_properties的字体特征文件。font_properties不含有BOM头，文件内容格式如下：
fontname italic bold fixed serif fraktur
其中fontname为字体名称，必须与[lang].[fontname].exp[num].box中的名称保持一致。italic 、bold 、fixed 、serif、 fraktur的取值为1或0，表示字体是否具有这些属性。
这里在样本图片所在目录下创建一个名称

最低0.47元/天解锁文章

一如既往的坚持

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
借助jTessBoxEditor工具训练tesseract识别库

ocr训练
复制链接

扫一扫

专栏目录

一如既往的坚持 CSDN认证博客专家 CSDN认证企业博客

码龄6年

110: 原创

7万+: 周排名

229万+: 总排名

8万+: 访问

: 等级

1141: 积分

24: 粉丝

34: 获赞

26: 评论

104: 收藏

私信

关注

热门文章

分类专栏

python 2篇
uibot 10篇
数据结构 10篇
javascript 15篇
jvm 7篇
一步一步成为架构师 17篇
mubatis 2篇
spring 8篇
多线程高级 13篇
多线程 11篇
集合 2篇
java 4篇
hashmap 1篇
springboot 5篇
设计模式 1篇

最新评论

uibot一些知识点
m0_52837810: 所以应该怎么解决啊，急求
uibot进行携程航班信息查询
5919865: 日期那里怎么选啊？那段Js代码携程改版后好像没法用了哦。。。
基于Redis的Setnx实现分布式锁
KK吃西瓜: 这个释放的时候是哪一步呀哪一步调用的close
uibot数据抓取+数据表+excel小案例
qq_46080564: 学到了，非常有用，数据表存储到excel中，是先要转换成数组才可以是吗？
javascript网络请求
NeilMonroe: 文章比较详细，看完深受启发（就是我抄作业完毕）。。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。