java版ocr图片上的文字识别，以及tesseract字库训练教程（带合并链接）

最新推荐文章于 2024-06-22 10:59:54 发布

tfish2014

最新推荐文章于 2024-06-22 10:59:54 发布

阅读量1.1k

点赞数 2

文章标签： ocr tesseract 图片文字识别字库训练 jTessBoxEditor

本文链接：https://blog.csdn.net/tangyu477/article/details/88899068

版权

如果不需要进行字库训练，那么，请直接下载idea工程：

https://pan.baidu.com/s/1nF6KAZFQHyESq9SMydklZg 提取码: g24r

eng指英文字库，中文字库是chi_sim。

字库下载地址：

https://github.com/tesseract-ocr/tessdata

字库注意，是放在工程目录：

src/test/resources/test-data

如果现有的字库并不能满足你的需求，那么就需要自己训练字库了，请继续往下走

---------------------------------------------------------------------------

我们需要用到一个工具：jTessBoxEditor

下载链接: https://pan.baidu.com/s/1A4QJszJMYb0DSRyVCUkbCw 提取码: kx1b

因为是JAVA开发，运行所以需要JAVA环境，这个略过。

下载完解压以后需要配置环境变量，这个和JDK环境变量配置类似

TESSDATA_PREFIX：E:\jTessBoxEditor\tesseract-ocr\tessdata

PATH:E:\jTessBoxEditor\tesseract-ocr

建一个目录，放需要识别的图片。

在安装目录找到一个【train.bat】打开 jTessBoxEditor >【Tools】>【Merge TIFF】

注意：

第一次选择是打开，第2次选择是 “保存” 操作，文件命名成num.font.exp0.tif，并保存。

随后就会生成一个num.font.exp0.tif文件。

打开 cmd 并切换至 num.font.exp0.tif 所在目录,输入

tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox

生成了num.font.exp0.box

在文件夹文件夹内，新建一个文本，文件名为font_properties，用记事本打开，写入内容为：

font 0 0 0 0 0

通过jTessBoxEditor ，open 打开num.font.exp0.tif

调整里面的识别区域和值

调整后，Save保存数据，然后再当前目录建一个批处理文件，内容如下：

echo Run Tesseract for Training.. 
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train 

echo Compute the Character Set.. 
unicharset_extractor.exe num.font.exp0.box 
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr 


echo Clustering.. 
cntraining.exe num.font.exp0.tr 

echo Rename Files.. 
rename normproto num.normproto 
rename inttemp num.inttemp 
rename pffmtable num.pffmtable 
rename shapetable num.shapetable  

echo Create Tessdata.. 
combine_tessdata.exe num. 

echo. & pause

保存文件的后缀为dos.bat