mmocr安装和使用

最新推荐文章于 2024-09-13 21:36:12 发布

飞锡2024

最新推荐文章于 2024-09-13 21:36:12 发布

阅读量999

点赞数 5

分类专栏：计算机视觉文章标签： ocr

本文链接：https://blog.csdn.net/weixin_38235865/article/details/137041452

版权

计算机视觉专栏收录该内容

25 篇文章

订阅专栏

https://github.com/open-mmlab/mmocr/blob/main/README_zh-CN.md
https://mmocr.readthedocs.io/en/dev-1.x/get_started/quick_run.html

介绍

MMOCR 是基于 PyTorch 和 mmdetection 的开源工具箱，专注于文本检测，文本识别以及相应的下游任务，如关键信息提取。它是 OpenMMLab 项目的一部分。

安装

安装依赖包：
根据cuda版本下载pytorch

在这里插入图片描述

pip install mmdet
pip install mmcv

安装mmocr

git cone https://github.com/open-mmlab/mmocr.git

pip install -e .

OCR代码：

from mmocr.apis import MMOCRInferencer
ocr = MMOCRInferencer(det='DBNet', rec='CRNN')
ocr('demo/demo_text_ocr.jpg',     show=True, print_result=True)

安装报错：
ERROR: Could not build wheels for mmcv, which is required to install pyproject.toml-based projects

那把pip安装换成mim安装

pip install -U openmim

–》

mim install mmcv

没有解决

安装visual studio 2022

pip install mmcv

还是报相同错。参考https://blog.csdn.net/qq_44042678/article/details/131486896 在这里插入图片描述

实践

识别结果：
在这里插入图片描述

可以使用别的检测和识别模型：
使用textsnake算法
在这里插入图片描述
其他算法：

其他

训练识别模型用自己的字典
在这里插入图片描述
训练其他语言识别模型吗

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

飞锡2024

关注关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

OCR开源工具箱MMOCR安装及使用示例(英文识别)

网络资源是无限的

09-11

3388

OCR开源工具箱MMOCR安装及使用示例(英文识别)

mmocr:OpenMMLab文本检测和识别工具箱

04-08

介绍 MMOCR是基于PyTorch和mmdetection的开源工具箱，用于文本检测，文本识别以及相应的下游任务，包括关键信息提取。它是项目的一部分。 master分支可与PyTorch 1.5+一起使用。文档： : 。主要特点综合管道该工具箱不仅支持文本检测和文本识别，还支持其下游任务，例如关键信息提取。多种型号该工具箱支持用于文本检测，文本识别和关键信息提取的各种最新模型。模块化设计 MMOCR的模块化设计使用户可以定义自己的优化器，数据预处理器和模型组件，例如主干，颈部和头部以及损失。有关如何构建自定义模型的信息，请参考。众多实用程序该工具箱提供了一套全面的实用程序，可以帮助用户评估模型的性能。它包括可对图像，地面真实情况以及预测的边界框进行可视化的可视化工具，以及用于在训练过程中评估检查点的验证工具。它还包括数据转换器，以演示如何将自己

参与评论您还未登录，请先登录后发表或查看评论

安装mmocr

guoqingru0311的博客

07-22

766

安装mmocr

window10安装MMOCR

u011788214的专栏

08-16

1140

window10安装MMOCR

TableMASTER-mmocr 安装和配置指南

gitblog_07431的博客

09-13

655

TableMASTER-mmocr 安装和配置指南 TableMASTER-mmocr 项目地址: https://gitcode.com/gh_mirrors/ta/TableMASTER-mmocr ...

mmocr 安装及快速运行

越努力，越幸运

01-26

1623

errorerror: subprocess-exited-with-errorpython setup.py bdist_wheel did not run successfully.note: This error originates from a subprocess，and is li_this is an issue with the package mentioned above, not pip.此版本如果不指定mmdet版本会报错，

MMOCR: OpenMMLab 全流程的文字检测识别理解工具箱

我爱计算机视觉

04-08

1433

号外号外，继港中文-商汤OpenMMLab开源全景图！之后，OpenMMLab 又有新成员加入咯～ 01 MMOCR特点全流程：支持文字检测、文字识别以及其下游任务...

MMOCR 项目使用指南

gitblog_00706的博客

08-09

410

MMOCR 项目使用指南 mmocrOpenMMLab Text Detection, Recognition and Understanding Toolbox项目地址:https://gitcode.com/gh_mirrors/mm/mmocr 1. 项目的目录结构及介绍 MMOCR 是一个基于 PyTorch 和 mmdetection 的开源工具箱，用于文本检测、文本识别及其下游任务，...

MMOCR——config文件

hxxjxw的博客

04-20

600

mmdetection合并了模块化与继承设计的思想来构成config系统，利用这种系统可以方便的执行多样化的实验。

MMOCR学习笔记

qq_73935779的博客

02-01

1907

一个小白的MMOCR学习笔记，欢迎友好讨论

mmocr初体验

一千零一夜的博客

04-12

3558

1.安装mmocr 官方依赖：pytorch, mmcv，mmdetection. 1.1 首先安装pytorch 这里默认已经安装好了cuda和cudnn pip install torch==1.8.0+cu111 torchvision==0.9.0+cu111 torchaudio==0.8.0 -f https://download.pytorch.org/whl/torch_stable.html 1.2安装mmcv mmcv安装记录_Mr.Q的博客-CSDN博客_...

MMOCR

hxxjxw的博客

04-14

2463

python demo/image_demo.py demo/demo_text_recog.jpg configs/textrecog/crnn/crnn_academic_dataset.py pth/crnn_academic-a723a1c5.pth demo/demo_text_recog_pred.jpg --imshow

open-mmlab/mmocr 环境搭建、推理和训练入门教程【一】

专注于AI领域前沿技术学习与分享：目标检测、图像修复、超分重建、AI工程化

06-26

1839

open-mmlab/mmocr 环境搭建、推理和训练入门教程

MMOCR之DBNET文字检测

Allen_人工智能与大数据

07-26

1977

MMOCR之DBNET文字检测

【仙女踩坑实录】3090上配置mmocr6.0环境完整版

vivigreeeen的博客

05-16

464

服务器重做系统了，又要重新配环境了。 1. 创建新用户首先，在Linux上先新建用户，在新建用户之前，要先切换root权限。 su root 正确输入密码后，遇到了第一个坑，提示su: Authentication failure 这样解决： sudo passwd root 然后输入新密码（可以和原来的一样），重复新密码，提示passwd: password updated successfully，成功。 su root adduser [用户名] 输入密码、具体信息，确认

MMOCR计算FPS

qq_38365929的博客

06-22

857

其实就是把mmdet里的FPS Benchmark改成mmocr里的，mmdet里的FPS Benchmark链接为：https://mmdetection.readthedocs.io/en/latest/useful_tools.html?highlight=fps#fps-benchmark，运行时执行我把这个文件放在了tools/ana_fps.py 里，仅供参考。具体代码如下：...

探秘AI文字识别新秀：MMOCR

gitblog_00020的博客

03-21

697

探秘AI文字识别新秀：MMOCR mmocrOpenMMLab Text Detection, Recognition and Understanding Toolbox项目地址:https://gitcode.com/gh_mirrors/mm/mmocr 项目简介 MMOCR（Multi-modal Open-Source OCR Toolkit）是OpenMMLab团队开发的一个全栈式的、...

【STD文本检测项目】之 DBNet++（一）用MMOCR在自己的数据集上训练进行文本检测

ailaier的专栏

06-23

4043

STD的定义，来自chatGPTScene Text Detection（场景文本检测）：也被称为文本定位。它是指从自然场景图像中自动检测和定位出存在的文本区域。场景文本检测的目标是找到图像中包含文本的矩形边界框，以便后续的文字识别或其他文本分析任务。一般是作为STR（Scene Text Recogition 场景文本识别）的上游任务，STD负责把图中的文本区域圈出来，STR负责识别圈出来的文本内容。STD有很多开源项目，可以参考。

Mmocr训练自己的数据集

2301_79152843的博客

08-19

2436

MMOCR 是一个基于和的开源工具箱，支持众多 OCR 相关的模型，涵盖了文本检测、文本识别以及关键信息提取等多个主要方向。MMOCR 具有以下特点：全流程：支持文字检测、文字识别以及其下游任务，比如关键信息提取等。多模型：我们实现了 10 余种优秀算法。文字检测算法包括单阶段检测算法和双阶段检测算法；文字识别包含规则文字识别和非规则文字识别算法；关键信息提取包含基于图模型的关键信息提取算法。模块设计：我们使用统一框架和模块化设计实现了各个算法模块。

如何使用MMOCR

最新发布

04-23

<think>好的，我需要帮助用户了解如何使用MMOCR框架进行光学字符识别，包括教程和示例代码。首先，我需要整理用户提供的引用内容，看看有哪些相关信息可以整合。引用1、2、3、4都提到了MMOCRInferencer的使用，特别是初始化模型、进行推理以及保存结果的方法。首先，用户可能需要知道安装步骤，因为这是使用任何框架的前提。引用3和4提到了安装，但具体步骤可能需要进一步说明。我应该先列出安装MMOCR的步骤，包括安装PyTorch和MMCV，然后通过pip安装MMOCR。接下来是基本使用流程。根据引用1、3，使用MMOCRInferencer需要导入库，初始化模型（选择检测和识别模型），然后调用推理方法。示例代码中，用户需要指定输入图像路径，设置输出目录，保存预测结果和可视化图像。需要注意的是，如果是在远程服务器上运行，可能需要禁用show选项，改为保存结果。然后，处理结果部分。引用3提到print_result可以控制是否打印识别结果，而结果包括检测框坐标和识别文本。用户可能需要知道如何解析这些输出，比如访问字典中的'det'和'rec'部分。高级配置部分，可以提到更换不同的检测和识别模型，比如引用1中的DBNet和SAR，或者引用3中的CRNN。同时，可以介绍如何调整阈值参数，比如det_thresh，以提高检测精度。可能的问题和解决方案部分，用户可能会遇到CUDA内存不足的情况，这时候建议调整检测阈值或使用更小的模型。另外，如果环境不支持图形显示，保存结果到本地是必要的。最后，按照用户要求生成相关问题，需要围绕MMOCR的安装、模型选择、处理非拉丁文本、批量处理等方面提问，确保问题与主题相关且能帮助用户深入理解。需要确保所有数学表达式和代码块格式正确，使用中文回答，结构清晰。检查是否有遗漏的步骤，比如安装依赖库的顺序，或者模型初始化的参数选项。同时，确保引用标记正确，如引用1、3对应的示例代码，引用2、4的项目地址等。</think>以下是如何使用MMOCR框架进行光学字符识别的详细教程和示例代码： ### 一、环境安装 1. 安装基础依赖： ```bash pip install torch torchvision pip install openmim mim install mmengine mim install mmcv ``` 2. 安装MMOCR核心库： ```bash pip install mmocr ``` ### 二、基础使用流程 ```python from mmocr.apis import MMOCRInferencer # 初始化模型（默认使用DBNet检测器+CRNN识别器） ocr = MMOCRInferencer(det='DBNet', rec='CRNN') # 单图推理（关键参数说明） results = ocr( 'input.jpg', show=False, # 是否实时显示 print_result=True, # 打印识别结果 save_pred=True, # 保存文本结果到preds/ save_vis=True, # 保存可视化结果到vis/ out_dir='ocr_results/' # 自定义输出目录 ) ``` ### 三、结果处理识别结果包含两个字典： ```python # 文本检测结果 detections = results['predictions'][0]['det'] # 文本识别结果 recognitions = results['predictions'][0]['rec'] ``` 每个识别结果包含： - `bbox`: 检测框坐标（格式[x1,y1,x2,y2,x3,y3,x4,y4]） - `text`: 识别文本 - `confidence`: 置信度 ### 四、高级配置 1. **模型切换**： ```python # 使用PSENet检测器+SAR识别器 ocr = MMOCRInferencer(det='PSENet', rec='SAR') ``` 2. **阈值调整**： ```python ocr = MMOCRInferencer( det='DBNet', rec='ABINet', det_thresh=0.7 # 检测置信度阈值 ) ``` ### 五、常见问题解决 1. **CUDA内存不足**： - 降低检测阈值`det_thresh` - 使用更小尺寸的模型（如`dbnet_resnet18_fpnc`） 2. **远程服务器使用**： ```python ocr('input.jpg', show=False, save_vis=True, out_dir='/remote/output/path/') ```