最新用OCR识别身份证,用的tesseract引擎。但是google自带的中文库是在太慢了,尤其是对于性别、民族这样结果可以穷举的特征信息而言,完全可以自己训练字库。自己训练字库不仅可以提高识别速度,而且可以提高识别精度!
在训练过程中,常见的error有以下几种:
1)index >= 0 && index<size_used_:Error:Assert failed in genericvector.h, line 512
原因:
检查一下训练后type 13的数值。如果为0,说明shapetable没有配置进去。
2)empty page
原因:版面分析没有做好,没有找到字符。最好手动设置以下版面格式。如:
-psm 7 单行模式