Tesseract-OCR训练笔记

最新推荐文章于 2024-08-05 22:01:02 发布

洪十二

最新推荐文章于 2024-08-05 22:01:02 发布

阅读量9.6k

点赞数 2

分类专栏： OCR 文章标签： c# OCR tesseract

本文链接：https://blog.csdn.net/marvinhong/article/details/8459591

版权

OCR 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

0. 小弟训练笔记步骤在Tesseract-OCR.3.01测试成功，3.02测试失败。如果高手在3.02测试成功希望能否分享点经验。谢谢！另外建议用于训练的图片命名格式规则如test.*.jpg或tif..
1. Tesseract-OCR.3.01下载解压即可。建议放在非C盘，因为在windows7对C盘的写权限有要求。
a) 下载地址http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01-win32-portable.zip
2. jTessBoxEditor下载解压即可。这个工具用java开发，运行需要安装JRE。用来修改box文件，以便校对识别文字。
a) 下载地址http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
3. 制作Box文件,命令模式进入Tesseract-OCR.3.01目录执行，产生test.2.box,test.3.box。box文件与图片目录一致。
a) tesseract.exe test.2.jpg test.2 batch.nochop makebox
b) tesseract.exe test.3.jpg test.3 batch.nochop makebox
c) …
4. 运行jTessBoxEditor
a) 开启test.2.jpg校对识别文字，保存,自动保存到test.2.box。
b) 开启test.3.jpg校对识别文字，保存,自动保存到test.3.box。
5. 生成初始训练文件产生test.2.tr&test.2.txt , test.3.tr,test.3.txt
a) tesseract.exe test.2.jpg test.2 nobatch box.train
b) tesseract.exe test.3.jpg test.3 nobatch box.train
6. 执行unicharset_extractor.exe产生unicharset文件
a) unicharset_extractor.exe test.2.box test.3.box
7. 创建font_properties，并且输入以下文本代表使用普通字体
a) test.2 0 0 0 0 0
b) test.3 0 0 0 0 0
8. 执行mftraining.exe产生inttemp，mfunicharset，Microfeat，pffmtable
a) mftraining.exe -F font_properties -U unicharset test.2.tr test.3.tr
9. 执行cntraining.exe产生normproto
a) cntraining.exe test.2.tr test.3.tr
10. 文件改名
a) unicharset改名为test. unicharset
b) inttemp改名为test.inttemp
c) normproto改名为test. normproto
d) pffmtable改名为test. pffmtable
11. 生成最终训练文件test.traineddata
a) combine_tessdata.exe test.
12. 复制test.traineddata到tessdata下重新执行tesseract.exe test.2.jpg ocr_result -l test这时会将ocr结果产生在ocr_result.txt里。

洪十二

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
6
评论
Tesseract-OCR训练笔记

0. 小弟训练笔记步骤在Tesseract-OCR.3.01测试成功，3.02测试失败。如果高手在3.02测试成功希望能否分享点经验。谢谢！另外建议用于训练的图片命名格式规则如test.*.jpg或tif..1. Tesseract-OCR.3.01下载解压即可。建议放在非C盘，因为在windows7对C盘的写权限有要求。a) 下载地址http://tesseract-ocr.google
复制链接

扫一扫

专栏目录