如果不需要进行字库训练,那么,请直接下载idea工程:
https://pan.baidu.com/s/1nF6KAZFQHyESq9SMydklZg 提取码: g24r
eng指英文字库,中文字库是chi_sim。
字库下载地址:
https://github.com/tesseract-ocr/tessdata
字库注意,是放在工程目录:
src/test/resources/test-data
如果现有的字库并不能满足你的需求,那么就需要自己训练字库了,请继续往下走
---------------------------------------------------------------------------
我们需要用到一个工具:jTessBoxEditor
下载链接: https://pan.baidu.com/s/1A4QJszJMYb0DSRyVCUkbCw 提取码: kx1b
因为是JAVA开发,运行所以需要JAVA环境,这个略过。
下载完解压以后需要配置环境变量,这个和JDK环境变量配置类似
TESSDATA_PREFIX:E:\jTessBoxEditor\tesseract-ocr\tessdata
PATH:E:\jTessBoxEditor\tesseract-ocr
建一个目录,放需要识别的图片。
在安装目录找到一个【train.bat】打开 jTessBoxEditor >【Tools】>【Merge TIFF】
注意:
第一次选择是打开,第2次选择是 “保存” 操作,文件命名成num.font.exp0.tif,并保存。
随后就会生成一个num.font.exp0.tif文件。
打开 cmd 并切换至 num.font.exp0.tif 所在目录,输入
tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
生成了num.font.exp0.box
在文件夹文件夹内,新建一个文本,文件名为font_properties,用记事本打开,写入内容为:
font 0 0 0 0 0
通过jTessBoxEditor ,open 打开num.font.exp0.tif
调整里面的识别区域和值
调整后,Save保存数据,然后再当前目录建一个批处理文件,内容如下:
echo Run Tesseract for Training..
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train
echo Compute the Character Set..
unicharset_extractor.exe num.font.exp0.box
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr
echo Clustering..
cntraining.exe num.font.exp0.tr
echo Rename Files..
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable
echo Create Tessdata..
combine_tessdata.exe num.
echo. & pause
保存文件的后缀为dos.bat
执行dos.bat会生成很多文件。效果如下,就说明字典基本训练OK。
如果遇到批处理不能执行,请运行cmd到当前目录,然后依次执行截图所示命令:
如果出现命令不识别,说明环境变量配置的有问题。
好了。至此num.traineddata就是新训练生成的字典,可以拿过去试试啦、、、、、、
合并字体请跳转:
https://www.cnblogs.com/yanjj/p/7998980.html