OCR算法识别率怎么评估?

本文介绍OCR算法的关键指标,包括文字识别准确率、整行准确率等,并探讨了OCR API的各种应用场景,如名片、文档、车牌及证件识别。此外,文中还提到了用于评估算法质量的图片样本选择标准。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于OCR算法:http://ocr.space/

ocr api接口的种类:OCR名片识别API接口、OCR文档识别API接口、OCR车牌识别API接口、OCR证件识别API接口

一、测试方法:

人工检验(效率低、需要提升)

二、算法指标:

1、文字识别准确率

字符准确率:单字识别率,就是按单字算,一百个字里错5个字,识别率95%。

  • 字符识别准确率,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况
  • 字符识别召回率,即识别对的字符数占实际字符数的比例,可以反应识别错和漏识别的情况,但是没办法反应多识别的情况,可以配套字符识别准确率一起使用。

整行准确率:一个字段算一个整体,假如100个字分为20个字段,里面错了5个字,分布在4个字段里,那么识别率是16/20=80%。

  • 平均编辑距离:平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标,可以同时反应识别错,漏识别和多识别的情况
  • 文本行定位为的准确率和召回率,同字符识别的准确率和召回率。主要反应文本行定位的指标,是ocr算法的重要指标

三、图片准备

图片覆盖范围:

不同字体(单字体、混合字体、不同语言的字体)

不同语言(单语言、混合语言、混合特殊字符、公式等)

横排文字、竖排文字

不同图片格式

复杂排版、图文混排、插图中的文字、不同清晰度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值