OpenVINO Pre-Trained 预训练模型介绍二

本文介绍了Intel OpenVINO工具包中的预训练模型,包括目标检测、识别、分割等各类模型及其应用场景。并提供了模型下载及使用的具体步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

OpenVINO 系列软件包预训练模型介绍

本文翻译自 Intel OpenVINO 的  "Overview of OpenVINO Toolkit Pre-Trained Models"

原文链接: https://docs.openvinotoolkit.org/latest/_models_intel_index.html

翻译:coneypo,working in Intel for IoT,有问题或者建议欢迎留言交流

Q&A

问:用 Pre-trained model 可以干什么?

答:我们可以用 Pre-trained 的模型直接输入数据进行 model inference / 推理,而不需要收集数据集自己 Train 一个 model,这些训练好的模型拿来即用,适合新手学习;

问:如何使用 OpenVINO 预训练模型进行推算?

答:

1. 先下载安装 OpenVINO 环境: https://docs.openvinotoolkit.org/cn/index.html

2. OpenVINO 提供的 model zoo 的示例代码在这个 repo :

$ git clone https://github.com/opencv/open_model_zoo

$ cd /open_model_zoo/demos/python_demos/

3. 比如有一个 face_recognition_demo/ 文件夹,里面有个 README.md 告诉怎么配置参数:

python ./face_recognition_demo.py ^
-m_fd /face-detection-retail-0004.xml ^
-m_lm /landmarks-regression-retail-0009.xml ^
-m_reid /face-reidentification-retail-0095.xml ^
--verbose ^
-fg "C:/face_gallery"

4. 下载模型

$ cd //deployment_tools/open_model_zoo/tools/downloader/

$ sudo ./downloader.py --name face-detection-retail-0004

$ sudo ./downloader.py --name landmarks-regression-retail-0009.xml

$ sudo ./downloader.py --name face-reidentification-retail-0095.xml

5. 运行 face_recognition_demo.py

这篇文章中会介绍如下模型:

OpenVINO 软件包提供一系列预训练模型,你可以用来进行学习,或者进行参考设计;

OpenVINO 的版本会在 Github_open_model zoo 上面进行维护;

这些模型也可以通过模型下载器 (/deployment_tools/open_model_zoo/tools/downloader) 下载,或者在 01.org 进行手动下载;

*(补充)Classification / 分类Detection / 检测Semantic Segmentation / 语义分割Instance Segmentation / 实例分割 区别

Object Detection Models / 目标检测模型

OpenVINO 提供一系列热门目标,如人脸/人/汽车等等的检测模型;大多数网络都是基于 SSD (Single Shot MultiBox Detector),而且准确度和性能都不错;

针对于检测相同类型目标的网络(比如 face-detection-adas-0001 和 face-detection-retail-0004),能够以较小的性能代价,让我们达到更高的精度和更广的适用范围;

因此你可以期待一个更大的神经网络,来更好的检测相同类型的对象;

模型名称复杂度 (GFLOPS)大小(MP)人脸汽车自行车车牌产品
target="_blank">faster-rcnn-resnet101-coco-sparse-60-0001364.2152.79 XXX  
target="_blank">face-detection-adas-00012.8351.053X     
target="_blank">face-detection-adas-binary-00010.8191.053X     
target="_blank">face-detection-retail-00041.0670.588X     
target="_blank">face-detection-retail-00050.9821.021X     
target="_blank">face-detection-01000.7851.828X     
target="_blank">face-detection-01021.7671.842X     
target="_blank">face-detection-01042.4051.851X     
target="_blank">face-detection-01052.8532.392X     
target="_blank">face-detection-0106339.59769.920X     
person-detection-retail-000212.4273.244 X    
target="_blank">person-detection-retail-00132.3000.723 X    
target="_blank">person-detection-action-recognition-00057.1401.951 X    
target="_blank">person-detection-action-recognition-00068.2252.001 X    
target="_blank">person-detection-action-recognition-teacher-00027.1401.951 X    
target="_blank">person-detection-raisinghand-recognition-00017.1381.951 X    
target="_blank">pedestrian-detection-adas-00022.8361.165 X    
target="_blank">pedestrian-detection-adas-binary-00010.9451.165 X    
target="_blank">pedestrian-and-vehicle-detector-adas-00013.9741.650 XX   
target="_blank">vehicle-detection-adas-00022.7981.079  X   
target="_blank">vehicle-detection-adas-binary-00010.9421.079  X   
target="_blank">person-vehicle-bike-detection-crossroad-00783.9641.178 XXX  
target="_blank">person-vehicle-bike-detection-crossroad-10163.5602.887 XXX  
target="_blank">vehicle-license-plate-detection-barrier-01060.3490.634  X X 
target="_blank">product-detection-00013.5983.212     X
target="_blank">person-detection-asl-00010.9861.338 X    
target="_blank">yolo-v2-ava-000129.3848.29 XXX  
target="_blank">yolo-v2-ava-sparse-35-000129.3848.29 XXX  
target="_blank">yolo-v2-ava-sparse-70-000129.3848.29 XXX  
target="_blank">yolo-v2-tiny-ava-00016.97515.12 XXX  
target="_blank">yolo-v2-tiny-ava-sparse-30-00016.97515.12 XXX  
target="_blank">yolo-v2-tiny-ava-sparse-60-00016.97515.12 XX  

Object Recognition Models / 目标识别模型

目标识别模型用来进行 Classification / 分类Regression / 回归Charcter recognition / 特征识别

针对某种特征进行检测之后,再使用这些神经网络进行检测/识别(比如在人脸识别之后,再进行年龄/性别的识别);

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">age-gender-recognition-retail-00130.0942.138
target="_blank">head-pose-estimation-adas-00010.1051.911
target="_blank">license-plate-recognition-barrier-00010.3281.218
target="_blank">vehicle-attributes-recognition-barrier-00390.1260.626
target="_blank">emotions-recognition-retail-00030.1262.483
target="_blank">landmarks-regression-retail-00090.0210.191
target="_blank">facial-landmarks-35-adas-00020.0424.595
target="_blank">person-attributes-recognition-crossroad-02300.1740.735
target="_blank">gaze-estimation-adas-00020.1391.882

Reidentification Models / 再识别模型

在视频中,进行精准的目标追踪是计算机视觉的典型应用场景;

它通常会因为一系列的事情而变得相对比较复杂,这些事情可以描述为 "Relatively long absence of an object" / 一个对象相对较长的缺失;

比如,可能由于 occlusion / 遮挡 或者 out-of-frame movement / 框外移动 导致的;

针对这种情况,最好将目标视为 "seen before" / 先前见过的,而不管其在图像中的当前位置,或者距离上次识别出位置经过多长时间;

下面的网络用在以上这种情况,这些网络获取一个人的图像,然后将这个人的特征在高维空间中进行评估;这些特征向量会进行进一步评估:通过比较欧式距离来确定是否是同一个人;

这里提供了几种模型,在性能和精确度之间进行权衡(模型更大,性能更好):

模型名称复杂度 (GFLOPS)大小 (MP)RANK-1 ON MARKET-1501 数据集
target="_blank">person-reidentification-retail-00310.0280.28092.11%
target="_blank">person-reidentification-retail-02480.1740.18384.3%
target="_blank">person-reidentification-retail-02490.5640.59792.9%
target="_blank">person-reidentification-retail-03003.5215.28996.3%
模型名称复杂度 (GFLOPS)大小 (MP)RANK-1 ON MARKET-1501 数据集
target="_blank">face-reidentification-retail-00950.5881.10799.33%

Semantic Segmentation Models / 语义分割模型

语义分割可以归为目标检测的拓展问题;

返回的不是特征框,语义分割模型返回输入图像(图像中每个像素的颜色代表着特定的类别)的 Painted version / 涂色块

这些网络比目标检测网络要复杂的多,但是提供了一个像素级别的分类,属于同一类的像素会被归为一类(涂上相同颜色),而且可以检测到复杂图形中的空间(比如道路中的可用区域);

模型名称复杂度(GFLOPS)大小 (MP)
target="_blank">road-segmentation-adas-00014.7700.184
target="_blank">semantic-segmentation-adas-000158.5726.686
target="_blank">unet-camvid-onnx-0001260.131.03
target="_blank">icnet-camvid-ava-0001151.8225.45
target="_blank">icnet-camvid-ava-sparse-30-0001151.8225.45
target="_blank">icnet-camvid-ava-sparse-60-0001151.8225.45

Instance Segmentation Models / 实例分割模型

实例分割模型是目标检测和语义分割的拓展;

实例分割模型不是对每个目标实例进行特征框预测分析,而是为每个实例生成像素级别的遮罩;

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">instance-segmentation-security-102530.14626.69
target="_blank">instance-segmentation-security-005046.60230.448
target="_blank">instance-segmentation-security-0083365.626143.444
target="_blank">instance-segmentation-security-0010899.568174.568

Human Pose Estimation Models / 人类姿势估计模型

人体姿势估计任务用来预测姿势:对于输入的图像或者视频,推断出带有特征点和特征点之间连接的身体骨骼;特征点是身体器官:比如耳朵,眼睛,鼻子,胳膊,膝盖等等;

有两种主要的分类:top-down / 从上往下, bottom-up / 从下往上

第一种方法在给定的帧中,检测出人,然后裁剪和调整,运行姿势估计网络为每个检测出来的人,这种方法很精确;

第二种找到给定的帧中,所有的特征点,然后根据人的实例进行分类,因此比第一种更快,因为网络只运行了一次;

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">human-pose-estimation-000115.4354.099

Image Processing / 图像处理

深度学习模型在图像处理中应用来提高输出质量:

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">single-image-super-resolution-103211.6540.030
target="_blank">single-image-super-resolution-103316.0620.030
target="_blank">text-image-super-resolution-00011.3790.003

Text Detection / 文本检测

深度学习模型在文本检测中进行应用:

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">text-detection-000351.2566.747
target="_blank">text-detection-000423.3054.328

Text Recognition / 文本识别

深度学习模型在文本识别中应用;

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">text-recognition-00121.4855.568
target="_blank">handwritten-score-recognition-00030.7925.555
target="_blank">handwritten-japanese-recognition-0001117.13615.31

Text Spotting / 文本定位识别

深度学习模型用于文本检测识别;

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">text-spotting-0002-detector185.16926.497
target="_blank">text-spotting-0002-recognizer-encoder2.0821.328
target="_blank">text-spotting-0002-recognizer-decoder0.0020.273

Action Recognition Models / 动作识别模型

动作识别模型对一个视频短片(通过堆叠来自输入视频的采样帧得到的张量)预测动作;

一些模型从不同的视频片段中提取(比如 driver-action-recognition-adas-0002 可能会使用预计算的高维度)特征(嵌入) 然后整合到一个临时模型中,用分类分数来预测一个向量;

计算嵌入的模型称为 encoder / 编码器,用来预测真实标签的模型称为 decoder / 解码器;

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">driver-action-recognition-adas-0002-encoder0.6762.863
target="_blank">driver-action-recognition-adas-0002-decoder0.1474.205
target="_blank">action-recognition-0001-encoder7.34021.276
target="_blank">action-recognition-0001-decoder0.1474.405
target="_blank">asl-recognition-00046.6604.133

Image Retrieval / 图像检索

深度学习模型用来进行图像检索(根据相似度对图像进行排序);

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">image-retrieval-00010.6132.535

Compressed Models / 压缩模型

深度学习压缩模型;

模型名称复杂度 (GFLOPS)大小 (MP)
target="_blank">resnet50-binary-00011.0027.446
target="_blank">resnet18-xnor-binary-onnx-0001--

欢迎使用 Intel OpenVINO Toolkit 进行 AI 开发,OpenVINO(SW)+ MyriadX VPU(HW) 主要侧重于 Inference 推算时的加速,借助 Intel VPU 可以对边缘端设备推演时进行加速;

我会在之后的 blog 里面更新详细的 sample code 的用法;

https://bbs.huaweicloud.com/blogs/159497 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值