关于OCR算法:http://ocr.space/
ocr api接口的种类:OCR名片识别API接口、OCR文档识别API接口、OCR车牌识别API接口、OCR证件识别API接口
一、测试方法:
人工检验(效率低、需要提升)
二、算法指标:
1、文字识别准确率
字符准确率:单字识别率,就是按单字算,一百个字里错5个字,识别率95%。
- 字符识别准确率,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况
- 字符识别召回率,即识别对的字符数占实际字符数的比例,可以反应识别错和漏识别的情况,但是没办法反应多识别的情况,可以配套字符识别准确率一起使用。
整行准确率:一个字段算一个整体,假如100个字分为20个字段,里面错了5个字,分布在4个字段里,那么识别率是16/20=80%。
- 平均编辑距离:平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标,可以同时反应识别错,漏识别和多识别的情况
- 文本行定位为的准确率和召回率,同字符识别的准确率和召回率。主要反应文本行定位的指标,是ocr算法的重要指标
三、图片准备
图片覆盖范围:
不同字体(单字体、混合字体、不同语言的字体)
不同语言(单语言、混合语言、混合特殊字符、公式等)
横排文字、竖排文字
不同图片格式
复杂排版、图文混排、插图中的文字、不同清晰度