[TesserAct学习笔记1]TesserAct的安装、训练、使用

最新推荐文章于 2024-05-23 11:27:29 发布

美滋滋的小猫猫

最新推荐文章于 2024-05-23 11:27:29 发布

阅读量1k

点赞数

分类专栏：机器学习；tensorflow 文章标签： TesserAct 使用训练安装

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_17506541/article/details/70226463

版权

TesserAct安装：https://github.com/tesseract-ocr/tesseract/wiki

用于编辑TesserAct训练数据的可视化工具 jtessboxEditor : https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

1.TesserAct的简单使用

如果不打算自己训练，想直接使用TesserAct训练好的模型，可以直接输入：

tesseract yourImage yourOutPutFileName -l languageLib -psm yourChoice

其中 -l选项选择的是字库模型，其存储在 Tesseract-OCR/tessdata文件夹下。每个*.traineddata代表着一个针对某种字体或者情况训练好的模型，可以通过-l选项导入。例如：eng.traineddata 代表的是英语模型。tesserAct只默认自带英文模型，如果想识别其他语言的模型，可以在:https://github.com/tesseract-ocr/tessdata下载相应语种的trainedData，并放入本地的tessdata文件夹下，再在运行时以-l选择即可。

2.训练自己的TesserAct字库

2.1准备多页TIF文件

通过JTessBoxEditor -> tools 选项，你可以将多个tif图片合并成一个多页tif图片，以供后面的训练使用，假设这里合并成的多页tif名字为exam.tif

2.2生成box文件

1	`tesseract exam.tif exam -l eng -psm 6 batch.nochop makebox`

注意-l 和 -psm选项要根据实际情况做调整。

2.3将box和tif文件放在同一目录下，然后用jtessBoxEditor打开，界面如下：

在这个界面下你可以编辑图片的bounding box 以及字符的char,别忘了翻页噢！

2.3训练字库

在上一步确认调整好并保存后，即进入到训练阶段。

只要在命令行输入命令即可。

最低0.47元/天解锁文章

美滋滋的小猫猫

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[TesserAct学习笔记1]TesserAct的安装、训练、使用

TesserAct安装：https://github.com/tesseract-ocr/tesseract/wiki用于编辑TesserAct训练数据的可视化工具 jtessboxEditor : https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/1.TesserAct的简单使用如果不打算自己训练，想直
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。