使用Tesseract OCR 提取美元序列號

http://www.cnblogs.com/physoft/archive/2011/09/19/2181180.html

最近使用Tesseract OCR 識別了美元序列號。原本使用自己開發的OCR庫識別(下稱B庫). B庫在字符集很小的時候,比如A-Z, 0-9, 識別室外字符性能遠優越於Tesseract OCR. 因為室外字符光照,陰影,噪音非常嚴重,二值化後往往字符有大量較大空洞和光照噪音,使用形態學運算補洞顯然行不通,所以Tesseract OCR會有大量錯識別和誤識別。B庫在識別 室外運動員號碼項目中,以人為單位的識別正確率>90%, 以字符為單位的識別>97%.  但是美元序列號識別項目中,序列號的分辨率不高,但是字符非常規整,針對字符特征做旋轉糾正和特殊較復雜的二值化,可以得到非常好的連通字符。使用Tesseract OCR識別率達到了100%! 

原始樣圖:

旋轉和二值化後的圖片:可見二值化的效果非常的好。美元的序列號附近區域沒有定位特征,而且不同幣值的序列號位置,大小,背景等等都不是很確定的,所以不能使用相對百分裡來定位序列號。而需要使用比較特殊,快速的字符定位。然後在字符區做針對字符的特殊二值化,才能很好的除去背景。

比較舊的幣:

旋轉和二值化的結果:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值