使用MindStudio完成en_PP-OCRv3_rec模型开发

本文详述如何使用MindStudio搭建环境,获取并转换PaddlePaddle的en_PP-OCRv3_rec模型,进行数据预处理、模型转换、推理及精度验证的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文主要介绍通过MindStudio全流程开发工具链,将PaddlePaddle模型转成om模型,并在昇腾环境上进行推理的流程。

一、MindStudio环境搭建

通过MindStudio官网介绍可以学习了解MindStudio的功能,以及按照MindStudio用户手册进行安装和使用。

官网链接:

昇腾社区-官网丨昇腾万里 让智能无所不及

用户手册:

昇腾社区-官网丨昇腾万里 让智能无所不及

1.1 MindStudio软件下载

在官网首页中点击“立即下载”,如下图。

 

然后我们进入版本选择界面,可以根据自己的操作系统、安装方式选择不同的软件包,我们这里选择的是MindStudio_5.0.RC2_win.exe,进行下载安装。

 

点击对应的“软件包下载”,弹出软件下载需知对话框,勾选“我已阅读并已同意 MindStudio软件许可协议 的条款和条件”,然后点击“立即下载”进入下载流程。

 

1.2 MindStudio软件安装

双击打开下载好的MindStudio_5.0.RC2_win.exe软件包,进入安装流程:

 

欢迎界面,点击“Next”

 

选择安装路径,我们使用的是默认安装路径,然后点击“Next”。

 

安装配置,我们只勾选了创建桌面快捷方式,和以工程方式打开文件夹添加到右键菜单中。然后点击“Next”。

 

启动菜单文件夹我们使用默认配置,点击“Install”,程序进入自动安装步骤。

 

安装完成后点击“Finsh”完成安装。

1.3 MindStudio环境搭建

通过桌面快捷方式启动MindStudio。

 

选择不导入配置,点击“OK”

 

Projects标签用于工程打开、创建等。

 

Customize标签用于IDE配置,包括界面、字体大小等。

 

Plugins标签用于管理插件的安装、删除等。

 

Learn MindStudio标签可以通过点击“Help”进入官方社区获取帮助。

在Projects标签下点击“New Project”创建一个新的工程。

 

选择Ascend App,输入工程名、和工程目录,点击“Change”选择或者添加CANN版本。

 

点击Remote CANN Setting对话框中的加号,弹出SSH Configurations对话框,然后点击其中的加号,填写红框中的服务器信息,点击“Test Connection”弹出连接成功对话框。

依次点击“OK”完成Remote Connection配置。

<think>好的,我需要回答用户关于PP-OCRv3模型推理选项的Notebook的问题。首先,用户提到参考了引用[1],其中提到PP-OCRv3在检测和识别方面的改进。用户现在想找相关的推理选项资料,特别是Notebook。 首先,我应该回忆PaddleOCR的文档结构。通常,PaddleOCR在GitHub上会有详细的README,里面可能有推理部分的说明,包括如何运行检测和识别的命令。另外,他们可能提供了Jupyter Notebook的例子,供用户参考。 接下来,用户需要的是“recognition inference options”,也就是识别部分的推理参数。我需要确认PP-OCRv3在识别时的具体参数,比如模型路径、输入图像尺寸、是否使用GPU、批处理大小等。此外,可能还有预处理和后处理的参数,比如是否启用字典,置信度阈值等。 然后,关于Notebook,PaddleOCR的GitHub仓库中可能有demo或示例目录,里面包含Jupyter Notebook文件。这些Notebook通常会展示如何加载模型、进行推理、可视化结果等步骤。需要确认是否存在专门的Notebook针对PP-OCRv3的识别推理选项。 另外,用户可能需要了解如何配置这些参数,比如通过命令行参数还是配置文件。PP-OCRv3可能使用YAML配置文件来设置模型参数,推理时的选项可能通过命令行参数调整,比如指定不同的模型、调整图像大小等。 还需要考虑用户可能遇到的常见问题,例如如何安装PaddleOCR,如何准备环境,如何处理不同格式的图像输入等。在回答时,可能需要提供一些代码示例,比如如何使用Python API进行识别,并调整相关参数。 最后,确保引用正确,根据用户提供的引用[1],可能需要指出具体的优化细节在技术报告中,而推理选项可能在官方文档或Notebook中有详细说明。需要引导用户到PaddleOCR的GitHub仓库查找相关资源,或者直接提供代码片段和参数说明。</think>关于PP-OCRv3识别模型的推理配置,PaddleOCR官方在GitHub仓库中提供了完整的推理参数说明和示例代码。推理流程主要涉及以下关键参数配置: 1. **基础参数设置**: ```python # 设置使用GPU推理(默认True) use_gpu = True # 指定识别模型路径 rec_model_dir = "./ch_PP-OCRv3_rec_infer/" # 设置批处理大小(影响推理速度) rec_batch_num = 16 # 指定字典路径(中文/英文需不同) rec_char_dict_path = "ppocr/utils/ppocr_keys_v1.txt" ``` 2. **图像预处理参数**: ```python # 设置输入图像尺寸限制 rec_image_shape = "3, 48, 320" # 格式为通道数,高度,宽度 # 标准化参数 norm_type = "mean_std" # 支持None/mean_std mean = [0.5, 0.5, 0.5] std = [0.5, 0.5, 0.5] ``` 3. **后处理参数**: ```python # 启用字典约束(默认True) use_space_char = True # 设置置信度阈值(低于该值过滤) drop_score = 0.5 ``` 官方在PP-OCRv3中新增了多语言支持参数`lang`,可通过设置`lang="ch"`或`lang="en"`切换中英文识别模式[^1]。推理时可结合检测模型实现端到端识别: ```python from paddleocr import PaddleOCR ocr = PaddleOCR( use_angle_cls=True, lang="ch", rec_model_dir="./ch_PP-OCRv3_rec_infer/", det_model_dir="./ch_PP-OCRv3_det_infer/", use_gpu=True ) result = ocr.ocr(img_path, cls=True) ``` 建议参考以下资源获取完整参数说明: - 官方Notebook示例:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/quickstart.md - 推理参数配置文件:`tools/program.py`中的`ArgsParser`类 - 技术报告中的量化加速参数:支持通过`enable_mkldnn`开启Intel CPU加速 : 引用内容来自用户提供的参考文档
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值