Tesseract是一个开源的OCR框架,可以实现图片的文字识别,对于正常的图片识别效率还是不错,不仅能识别英文,还能识别中文,不过需要自己下载字库。Tesseract和字库官网下载由于大家都知道都原因,太慢,太慢,太慢…而且还经常登不上。所以本编文章最后会把所有用到的资料打个包上传到csdn然后给大家一个链接。
Tesseract对于普通的文件的截图还有排版比较正常的图片识别效果正确率80%几,虽然不高,还可以凑合。但是对一些比较特别的图片,上面带很多图片,文字的字体,字号又比较特殊的基本上就识别不出来了。比如这一张
我使用Tesseract进行识别一个都没有识别出来。
不过不要紧,我们可以使用jTessBoxEditor针对性的训练字库
jTessBoxEditor有两种训练方式,我们先来说第一种:
第一种训练方式加粗样式****
第一种训练方式相对简单,效果可能不太好,两种方式也可以一起使用
1、生成tif和box文件
Output表示生成文件的位置,self表示字体库的前缀,和heiti.01共同组成生成的tif,和box文件名称。
点击Generate生成box和tif文件
注:tif文件命名格式需规范,格式为“[lang].[fontname].exp[num].tif”,lang为语言名称,fontname为字体名称,num为序号。
2、字符矫正
打开“Box Editor”页面
jTessBoxEditor2.3.1训练字库
最新推荐文章于 2024-05-07 14:26:39 发布