[TesserAct学习笔记1]TesserAct的安装、训练、使用

TesserAct安装:https://github.com/tesseract-ocr/tesseract/wiki

用于编辑TesserAct训练数据的可视化工具 jtessboxEditor : https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/


1.TesserAct的简单使用

如果不打算自己训练,想直接使用TesserAct训练好的模型,可以直接输入:

tesseract yourImage yourOutPutFileName -l languageLib  -psm yourChoice

其中 -l选项选择的是字库模型,其存储在 Tesseract-OCR/tessdata文件夹下。每个*.traineddata代表着一个针对某种字体或者情况训练好的模型,可以通过-l选项导入。例如:eng.traineddata 代表的是英语模型。tesserAct只默认自带英文模型,如果想识别其他语言的模型,可以在:https://github.com/tesseract-ocr/tessdata下载相应语种的trainedData,并放入本地的tessdata文件夹下,再在运行时以-l选择即可。


2.训练自己的TesserAct字库


2.1准备多页TIF文件

通过JTessBoxEditor -> tools 选项, 你可以将多个tif图片合并成一个多页tif图片,以供后面的训练使用,假设这里合并成的多页tif名字为exam.tif


2.2生成box文件

1
tesseract exam.tif  exam -l eng  -psm 6 batch.nochop makebox
注意-l 和 -psm选项要根据实际情况做调整。


2.3将box和tif文件放在同一目录下,然后用jtessBoxEditor打开,界面如下:


在这个界面下你可以编辑图片的bounding box 以及 字符的char,别忘了翻页噢!


2.3训练字库

在上一步确认调整好并保存后,即进入到训练阶段。

只要在命令行输入命令即可。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值