tesseract性能优化

tesseract性能优化

最近用到ocr技术,使用了google的tesseract,对于嵌入式设备来说,不光要实现功能,还要考虑实现功能的代价,也就说实现此功能需要的内存、cpu、存储以及网络资源,tesseract的使用我们需要关心的是CPU和存储资源。

CPU资源

这里说的CPU资源翻译过来就是识别速度,速度越快,说明需要的CPU资源越少,为了提高tesseract的识别速率,最关键的就是图像预处理,根据最近的一些经验,总结如下几点:

  • 图像切分做二值化:二值化后,输入给tesseract的图像简单,识别速度会提高,切分的原因是整体做二值化可能会转化掉一些你想要的问题,因为整体图片的元素太多,不好控制二值化的thresh,切分后,可以每个小图片单独处理,容易控制选取阈值。
  • 二值化的时候可以根据图片中文字的灰度值,尽量留下你需要的文字,转化掉不用的文字,减少tesseract的输入,当然这种优化只适用于你想获得的文字是确定的使用场景。
  • 切分的图片要拼接成一个大图:多个图片分别tesseract是耗时比较严重的,尽量将多个图片拼接成一个大图一起做teeseract。

存储资源

tesseract设置到占用存储资源的也就是tessdata了,我们可以通过工具减少目前tessdata的内容,然后再重新打包,或者根据使用场景自己训练data。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值