tesseract自训练教程

参考博文
进阶版可参考博文


一、安装tesseract

  1. 下载相关文件:tesseract-ocr下载链接
  2. 安装上述下载文件
  3. 如果需要识别其他语言,可以下载相关语言的 .traineddata文件(下载链接)。将 .traineddata文件复制到 D:\Tesseract-OCR\tessdata路径下(对应自己的tesseract安装目录)。
  4. 配置环境变量:系统变量path添加 D:\Tesseract-OCR\tessdataD:\Tesseract-OCR(对应自己的tesseract安装目录)

二、安装jTessBoxEditorFX

详情可参考博文

  1. 下载链接,如果要识别中文一定要选择FX版本
  2. jTessBoxEditorFX需要Java环境:安装jdk(下载链接
    注意:安装过程涉及到两次安装,第一次安装jdk,第二次安装jre。两次安装新建两个文件夹(同一目录下,也可默认安装路径),jdk安装文件放到第一个文件夹中,jre安装文件放到剩下的一个文件夹中。
    在这里插入图片描述
  3. 配置环境变量:系统变量path添加 D:\Java SE\jdk\binD:\Java SE\jdk\jre\bin(对应自己的java安装目录)

三、Tesseract自训练

  1. 训练图片均转换为tif格式

  2. 打开jTessBoxEditorFX,Tools -> Merge TIFF ,选择融合的tif文件进行融合。融合后的文件名设置为mychi.myfont.exp0.tif

  3. 图片目录下打开命令行(以下命令均在此目录下输入),输入tesseract mychi.myfont.exp0.tif mychi.myfont.exp0 batch.nochop makebox ,生成box文件

  4. 使用jTessBoxEditorFX打开box文件(打开tif会默认打开box文件),Box Editor – Open ,选择 mychi.myfont.exp0.tif,修改其中错误的识别字符,可以调整识别框的大小 (在右上角红框内修改错误字符)。页面下方有page,可以切换tif文件进行操作。
    在这里插入图片描述

  5. 命令行输入 tesseract mychi.myfont.exp0.tif mychi.myfont.exp0 nobatch box.train,生成.tr文件

  6. 命令行输入 unicharset_extractor mychi.myfont.exp0.box,生成unicharset文件并重命名为mychi.unicharset

  7. 命令行输入 echo myfont 0 0 0 0 0>font_properties(表示默认普通字体),生成文件

  8. 命令行输入 mftraining -F font_properties -U mychi.unicharset -O mychi.unicharset mychi.myfont.exp0.tr

  9. 命令行输入cntraining mychi.myfont.exp0.tr,共生成四个文件:inttemp、pffmtable、shapetable、normproto ,同样对他们进行重命名:在现文件名前加上 mychi.前缀

  10. 命令行输入 combine_tessdata mychi.,生成mychi.traineddata

  11. 将上一步骤生成的mychi.traineddata 文件复制到 D:\Tesseract-OCR\tessdata目录下(对应自己的tesseract安装目录)

  12. python中使用:a = pytesseract.image_to_string(src_img,lang='mychi')

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值