开源OCR模型对比

本文介绍了一个用于评估开源OCR模型性能的基准,包括文本检测和识别模型的精度、召回率、速度等指标,并对比了不同引擎(如onnxruntime、OpenVINO和PaddleOCR)下的模型表现。
摘要由CSDN通过智能技术生成

引言

目前,开源的项目中有很多 OCR 模型,但是没有一个统一的基准来衡量哪个是更好一些的。
面对这么多的模型,让我们有些不知所措。为此,最近一段时间以来,我一直想要构建这样一个基准,现在来看,已经初步具有雏形。

为了能更好地评测各个模型效果,收集标注了两个开源评测集:

为了能够方便计算各个模型指标,整理开源了两个计算常用指标的库:

以下结果均是基于以上 4 个库来的,其指标结果仅仅代表在指定评测集上效果,不代表在其他测试集上结果也是如此,仅供参考。

以下表格中推理时间是基于 MacBook Pro M2 运行所得,不同机器会有差别,请侧重查看彼此之间的比较。

指标计算都是在相同参数下计算得来,差别仅在于模型文件不同。

对应模型下载地址,参见:link

文本检测模型

评测依赖仓库:

  • rapidocr_onnxruntime==1.3.16: link
  • 计算指标库 TextDetMetric: link
  • 测试集 text_det_test_dataset: link

详情可以移步AI Studio运行查看。

模型模型大小PrecisionRecallH-meanSpeed(s/img)
ch_PP-OCRv4_det_infer.onnx4.5M0.83010.86590.84760.2256
ch_PP-OCRv3_det_infer.onnx2.3M0.80210.84570.82340.1660
ch_PP-OCRv2_det_infer.onnx2.2M0.75790.80100.77880.1570
ch_PP-OCRv4_det_server_infer.onnx108M0.79220.85330.82163.9093
ch_ppocr_server_v2.0_det_infer.onnx47M0.72980.81280.76910.7419
读光-文字检测-轻量化端侧 DBNet 行检测模型-中英-通用领域5.8M0.76660.81280.78900.6636
读光-文字检测-DBNet 行检测模型-中英-通用领域47.2M0.77490.81670.79520.4121
读光-文字检测-行检测模型-中英-通用领域 未跑通312M----

不同推理引擎下,效果比较:

推理引擎模型模型大小PrecisionRecallH-meanSpeed(s/img)
rapidocr_onnxruntime==1.3.16ch_PP-OCRv4_det_infer.onnx4.5M0.83010.86590.84760.2256
rapidocr_openvino==1.3.16ch_PP-OCRv4_det_infer.onnx4.5M0.83390.86290.84810.6447
rapidocr_paddle==1.3.18ch_PP-OCRv4_det_infer.onnx4.5M0.83010.86590.84760.9924
文本识别模型

评测依赖仓库:

  • rapidocr_onnxruntime==1.3.16: link
  • 计算指标库 TextRecMetric: link
  • 测试集 text_rec_test_dataset: link
模型对应 PaddleOCR 分支模型大小Exact MatchChar MatchSpeed(s/img)
ch_PP-OCRv4_rec_infer.onnxrelease/v2.710M0.83230.93550.6836
ch_PP-OCRv3_rec_infer.onnxrelease/v2.611M0.70970.89190.6362
ch_PP-OCRv4_rec_server_infer.onnxrelease/v2.786M0.79680.93810.6967
ch_PP-OCRv2_rec_infer.onnxrelease/v2.38.0M0.63870.83980.6138
ch_ppocr_mobile_v2.0_rec_infer.onnxrelease/v2.04.3M0.53230.78230.5575
读光-文字识别-行识别模型-中英-文档印刷体文本领域-73M0.59680.7705-
读光-文字识别-行识别模型-中英-通用领域-73M0.58390.7615-
读光-文字识别-行识别模型-中英-自然场景文本领域-73M0.59030.7779-
读光-文字识别-轻量化端侧识别模型-中英-通用领域-7.4M0.54840.7515-
读光-文字识别-CRNN 模型-中英-通用领域-46M0.59350.7671-
OFA 文字识别-中文-通用场景-base 未跑通-----

不同推理引擎下,效果比较:

推理引擎模型模型大小Exact MatchChar MatchSpeed(s/img)
rapidocr_onnxruntime==1.3.16ch_PP-OCRv4_rec_infer.onnx10M0.83230.93550.6836
rapidocr_openvino==1.3.16ch_PP-OCRv4_rec_infer.onnx10M0.83230.93550.6836
rapidocr_paddle==1.3.18ch_PP-OCRv4_rec_infer.onnx10M0.83230.93550.6836
  • 输入 Shape:

    • v2: [3, 32, 320]
    • v3~v4: [3, 48, 320]
  • 不同模型,实例化示例如下:

    from rapidocr_onnxruntime import RapidOCR
    
    # v3 or v4
    engine = RapidOCR(
      rec_model_path="models/ch_PP-OCRv3_rec_infer.onnx",
    )
    
    # v2
    engine = RapidOCR(
      rec_model_path="models/ch_ppocr_mobile_v2.0_rec_infer.onnx",
      rec_img_shape=[3, 32, 320],
    )
    

后续更新,请移步:link

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
关于身份证人脸检测OCR开源,目前有一些开源框架和工具可供使用。其中,常用的开源OCR库包括Tesseract、OpenCV和EasyOCR。 Tesseract是一个开源OCR引擎,由Google开发并维护。它支持多种语言,并且在识别印刷体身份证方面表现良好。 OpenCV是一个强大的计算机视觉库,其中包含了很多图像处理和分析的功能。它提供了用于人脸检测的算法,并可以与其他OCR引擎结合使用。 EasyOCR是一个基于深度学习的OCR库,它使用了预训练的模型来实现多语言的文本识别,并且支持身份证的识别和人脸检测。 这些开源框架和工具可以帮助开发者快速地实现身份证人脸检测OCR的功能,并且可以根据具体需求进行定制和扩展。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [对比了最常见的几家开源OCR框架,我发现了最好的开源模型](https://blog.csdn.net/weixin_42137700/article/details/109308720)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [OCR身份证识别免费试用,附带Java代码](https://blog.csdn.net/Ahairlessman/article/details/125724397)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值