jTessBoxEditor2.3.1训练字库

Tesseract是一个开源的OCR框架,可以实现图片的文字识别,对于正常的图片识别效率还是不错,不仅能识别英文,还能识别中文,不过需要自己下载字库。Tesseract和字库官网下载由于大家都知道都原因,太慢,太慢,太慢…而且还经常登不上。所以本编文章最后会把所有用到的资料打个包上传到csdn然后给大家一个链接。
Tesseract对于普通的文件的截图还有排版比较正常的图片识别效果正确率80%几,虽然不高,还可以凑合。但是对一些比较特别的图片,上面带很多图片,文字的字体,字号又比较特殊的基本上就识别不出来了。比如这一张在这里插入图片描述
我使用Tesseract进行识别一个都没有识别出来。
不过不要紧,我们可以使用jTessBoxEditor针对性的训练字库
jTessBoxEditor有两种训练方式,我们先来说第一种:
第一种训练方式加粗样式****
第一种训练方式相对简单,效果可能不太好,两种方式也可以一起使用
1、生成tif和box文件在这里插入图片描述
Output表示生成文件的位置,self表示字体库的前缀,和heiti.01共同组成生成的tif,和box文件名称。
点击Generate生成box和tif文件
在这里插入图片描述
注:tif文件命名格式需规范,格式为“[lang].[fontname].exp[num].tif”,lang为语言名称,fontname为字体名称,num为序号。
2、字符矫正
打开“Box Editor”页面

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
glibc2.3.1是GNU C Library的一个版本,是一个开源的C库,用于支持基于Linux系统的应用程序。它提供了许多功能和工具,使开发者能够编写高性能和可靠的应用程序。 首先,glibc2.3.1提供了丰富的API,可以用于处理文件、内存、进程、线程等操作。开发者可以使用这些API来编写应用程序,并与操作系统进行交互。此外,glibc2.3.1还提供了各种数据结构和算法的实现,以及对网络编程和多线程编程的支持,使开发者能够轻松地编写复杂的应用程序。 其次,glibc2.3.1还提供了对国际化和本地化的支持。开发者可以使用glibc的国际化功能来处理不同语言和地区的字符集、日期、时间等,以便确保应用程序在全球范围内能够正确地运行。 此外,glibc2.3.1还提供了一些安全性的功能,如缓冲区溢出的防护机制和堆栈隔离等。这些功能有助于开发者编写更加安全的应用程序,防止恶意代码的利用。 最后,glibc2.3.1是一个开源项目,可以免费使用和修改。这意味着开发者可以根据自己的需求对其进行定制,并贡献自己的改进和修复。这也使得glibc2.3.1成为开发者们在Linux系统上进行应用程序开发的首选库之一。 总之,glibc2.3.1是一个功能强大、可靠性高的C库,提供了广泛的API和功能,用于支持Linux系统上的应用程序开发。它的存在使得开发者能够更加轻松地编写高性能、可靠和安全的应用程序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值