mmocr安装和使用

https://github.com/open-mmlab/mmocr/blob/main/README_zh-CN.md
https://mmocr.readthedocs.io/en/dev-1.x/get_started/quick_run.html

介绍

MMOCR 是基于 PyTorch 和 mmdetection 的开源工具箱,专注于文本检测,文本识别以及相应的下游任务,如关键信息提取。 它是 OpenMMLab 项目的一部分。

安装

安装依赖包:
根据cuda版本下载pytorch

在这里插入图片描述

pip install mmdet
pip install mmcv

安装mmocr

git cone https://github.com/open-mmlab/mmocr.git
pip install -e .

OCR代码:

from mmocr.apis import MMOCRInferencer
ocr = MMOCRInferencer(det='DBNet', rec='CRNN')
ocr('demo/demo_text_ocr.jpg',     show=True, print_result=True)

安装报错:
ERROR: Could not build wheels for mmcv, which is required to install pyproject.toml-based projects

那把pip安装换成mim安装

pip install -U openmim

–》

mim install mmcv

没有解决

安装visual studio 2022

pip install mmcv

还是报相同错 。参考https://blog.csdn.net/qq_44042678/article/details/131486896在这里插入图片描述

实践

识别结果:
在这里插入图片描述

可以使用别的检测和识别模型:
使用textsnake算法
在这里插入图片描述
其他算法:
在这里插入图片描述

其他

训练识别模型用自己的字典
在这里插入图片描述
训练其他语言识别模型吗

<think>好的,我需要帮助用户了解如何使用MMOCR框架进行光学字符识别,包括教程示例代码。首先,我需要整理用户提供的引用内容,看看有哪些相关信息可以整合。引用1、2、3、4都提到了MMOCRInferencer的使用,特别是初始化模型、进行推理以及保存结果的方法。 首先,用户可能需要知道安装步骤,因为这是使用任何框架的前提。引用34提到了安装,但具体步骤可能需要进一步说明。我应该先列出安装MMOCR的步骤,包括安装PyTorchMMCV,然后通过pip安装MMOCR。 接下来是基本使用流程。根据引用1、3,使用MMOCRInferencer需要导入库,初始化模型(选择检测识别模型),然后调用推理方法。示例代码中,用户需要指定输入图像路径,设置输出目录,保存预测结果可视化图像。需要注意的是,如果是在远程服务器上运行,可能需要禁用show选项,改为保存结果。 然后,处理结果部分。引用3提到print_result可以控制是否打印识别结果,而结果包括检测框坐标识别文本。用户可能需要知道如何解析这些输出,比如访问字典中的'det''rec'部分。 高级配置部分,可以提到更换不同的检测识别模型,比如引用1中的DBNetSAR,或者引用3中的CRNN。同时,可以介绍如何调整阈值参数,比如det_thresh,以提高检测精度。 可能的问题解决方案部分,用户可能会遇到CUDA内存不足的情况,这时候建议调整检测阈值或使用更小的模型。另外,如果环境不支持图形显示,保存结果到本地是必要的。 最后,按照用户要求生成相关问题,需要围绕MMOCR安装、模型选择、处理非拉丁文本、批量处理等方面提问,确保问题与主题相关且能帮助用户深入理解。 需要确保所有数学表达式代码块格式正确,使用中文回答,结构清晰。检查是否有遗漏的步骤,比如安装依赖库的顺序,或者模型初始化的参数选项。同时,确保引用标记正确,如引用1、3对应的示例代码,引用2、4的项目地址等。</think>以下是如何使用MMOCR框架进行光学字符识别的详细教程示例代码: ### 一、环境安装 1. 安装基础依赖: ```bash pip install torch torchvision pip install openmim mim install mmengine mim install mmcv ``` 2. 安装MMOCR核心库: ```bash pip install mmocr ``` ### 二、基础使用流程 ```python from mmocr.apis import MMOCRInferencer # 初始化模型(默认使用DBNet检测器+CRNN识别器) ocr = MMOCRInferencer(det='DBNet', rec='CRNN') # 单图推理(关键参数说明) results = ocr( 'input.jpg', show=False, # 是否实时显示 print_result=True, # 打印识别结果 save_pred=True, # 保存文本结果到preds/ save_vis=True, # 保存可视化结果到vis/ out_dir='ocr_results/' # 自定义输出目录 ) ``` ### 三、结果处理 识别结果包含两个字典: ```python # 文本检测结果 detections = results['predictions'][0]['det'] # 文本识别结果 recognitions = results['predictions'][0]['rec'] ``` 每个识别结果包含: - `bbox`: 检测框坐标(格式[x1,y1,x2,y2,x3,y3,x4,y4]) - `text`: 识别文本 - `confidence`: 置信度 ### 四、高级配置 1. **模型切换**: ```python # 使用PSENet检测器+SAR识别器 ocr = MMOCRInferencer(det='PSENet', rec='SAR') ``` 2. **阈值调整**: ```python ocr = MMOCRInferencer( det='DBNet', rec='ABINet', det_thresh=0.7 # 检测置信度阈值 ) ``` ### 五、常见问题解决 1. **CUDA内存不足**: - 降低检测阈值`det_thresh` - 使用更小尺寸的模型(如`dbnet_resnet18_fpnc`) 2. **远程服务器使用**: ```python ocr('input.jpg', show=False, save_vis=True, out_dir='/remote/output/path/') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值