提高OCR识别率的一些菜鸟方法

  1. 原稿的质量直接影响到最后OCR的正确率,因此先要适当调整原稿。对于低质量稿件,可考虑在扫描前用复印机先行复印并适当调节对比度和亮度,使背景变成白色,而文字色泽保持黑色即可。经过复印以后的报纸,OCR的识别率有明显的提高。
  2. 扫描过程中一定要将原稿摆正,否则OCR软件将无法正确识别。如果无法将原稿摆正,可使用 “自动倾斜校正”或者“手动纠斜”功能纠正字体的倾斜。选择适当的扫描参数也很重要,一般OCR是原稿应扫描为“黑白二值”,扫描文字的亮度和对比度对文字的正确识别非常关键,我们可以通过“放大预览”对文稿中的几个文字进行取样扫描,从而对图像的亮度进行更为细致的调节,调节的工具是扫描仪工具内的“阀值”。
  3. 对于分辨率,原则上不求最“高”,只求最“佳”。若分辨率太高,扫描时间将会增加,图形所需的空间也会成倍地增长;若分辨率太低,识别率就不会很高。一般普通五号印刷体采用250~300dpi;若字号较大 (四号以上),用150~200dpi就足够了;如果是六号或七号等小字体,就要考虑使用400~600dpi。如果印刷字迹比较模糊,或笔划较多的识别文本,应适当提高扫描的分辨率。
  4. 扫描后,观察图像是否有污点现象,如有则使用图像处理软件将污点擦去。同时如果有图像存在,也会影响OCR的文字切分,可使用 “图像的块擦拭”工具将文档中的图像去除。此外,还应采用适当的辨识方式,注意稿件是横排还是竖排,可选择合适的编排格式按钮,以保持对应。如有必要还可进行版面分析,否则识别结果会有大量的空格,而OCR通常也将空白处作为识别对象。自动识别虽可很好地解决这一问题,但也常把不应分开的区域分开,造成识别结果的错误和颠倒。这时可结合自动分析与手工分析,将不恰当的版面分析删除。最后,再次适当地调节对比度和亮度,增加文字和背景的对比度,从而最终达到95%以的识别率。       
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值