设置白名单:让tesseract-OCR只识别指定内容

有时我们需要用tesseract-ocr只识别指定类型的数据,如:仅识别英文字母或数字。此时可设置白名单,让tesseract-ocr只输出我们需要的结果。
1.打开tesseract-ocr安装路径下的tessdata/configs/digits文件,可以看到里面有一个tessedit_char_whitelist,将其设置成我们需要得到的识别结果。
如:tessedit_char_whitelist ABCD
2.在调用命令时,需要加上我们设置的文件名:tesseract xxx.png outfilename -psm 6 digits

注:

tesseract提供了OCR引擎模式。有如下四种
  • 0 =仅限原始Tesseract
  • 1 =只有神经网络LSTM
  • 2 =Tesseract + LSTM
  • 3 =基于可用的默认值

目前LSTM是无法支持白名单的

我们需要选择第0种模式,指令如下:

tesseract --oem 0 1.png outfileName digits
注意:使用第0种模式会降低识别准确率
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值