npu 瑞芯微rk系列，rknn模型转换以及npu使用

最新推荐文章于 2025-03-01 23:08:22 发布

啊略略wxx

最新推荐文章于 2025-03-01 23:08:22 发布

阅读量1.8k

点赞数 28

文章标签： yolov5 rknn rk3588 瑞芯微 arm npu

本文链接：https://blog.csdn.net/m0_46417841/article/details/145556107

版权

NPU介绍

简介

NPU（Neural Processing Unit，神经网络处理单元）是一种专门用于加速人工智能计算任务的处理器。它是为运行复杂的神经网络算法而设计的，通常用于推理（inference）和有时用于训练（training）深度学习模型。NPU是AI加速器的一种，它旨在提供比传统CPU和GPU更高的能效比和性能。

为什么需要npu

特定优化：NPU针对深度学习和神经网络计算进行了专门的优化，可以更高效地执行矩阵乘法、卷积运算等深度学习任务。
能效比：NPU在执行特定任务时，能效比远高于传统的CPU。它们可以在低功耗下提供高性能，这对于移动设备和边缘计算设备尤为重要。
并行处理：NPU设计有大量的并行处理单元，能够同时处理多个计算任务，这对于需要大规模并行处理的深度学习模型来说是一个巨大优势。

NPU与CPU的区别

设计目标

CPU：作为通用处理器，CPU的设计目标是处理各种类型的数据和指令，包括逻辑判断、数值计算等。

NPU：NPU专为深度学习和神经网络计算设计，其硬件和指令集针对这些特定任务进行了优化。

性能

CPU：CPU在处理复杂的通用计算任务时非常灵活，但在执行深度学习任务时，其性能和能效可能不如NPU。

NPU：NPU可以显著提高深度学习任务的计算速度，同时保持较低的功耗。

架构

CPU：CPU通常由多个核心组成，每个核心可以执行顺序计算任务。

NPU：NPU包含大量并行处理单元，这些单元可以同时执行相同的或不同的计算任务。

适用场景

CPU：CPU适用于广泛的计算任务，包括操作系统管理、应用程序运行等。

NPU：NPU专门用于加速深度学习模型中的推理和训练过程。

可编程性

CPU：CPU具有很高的可编程性，可以动态调整来执行不同的任务。

NPU：NPU的可编程性相对较弱，其硬件架构和指令集通常是固定的，优化用于特定的深度学习任务。

总结：NPU的引入是为了更高效地处理AI相关任务，它在性能和能效上对比CPU有明显的优势，但牺牲了一些通用性和可编程性。随着人工智能技术的快速发展，NPU已经成为许多AI设备和系统中的一个关键组件

关键特点和介绍

功能和设计

专用的架构：NPU采用专门为神经网络计算设计的架构，这些架构针对深度学习中的特定操作（如卷积、池化、激活函数等）进行了优化。

能效比：NPU旨在提供高能效比，这意味着它们可以在较低功耗下提供高性能，这对于移动设备和边缘计算非常重要。

应用场景

推理：NPU广泛用于执行推理任务，如图像识别、语音识别、自然语言处理等。

边缘计算：在边缘计算环境中，NPU可以帮助设备在没有云连接的情况下进行本地AI处理。

NPU优势

性能：NPU可以显著提高深度学习模型的处理速度。

能效：由于NPU专为深度学习任务设计，因此在执行这些任务时比传统的CPU或GPU更节能。

简化开发：使用NPU可以简化深度学习应用的开发过程，因为它们通常配备有易于使用的API和软件库。

未来趋势

随着AI技术的不断发展，NPU的设计和功能也在不断进步。未来的NPU可能会集成更先进的特性，如更高效的计算架构、更强大的并行处理能力以及对新型神经网络的支持。

瑞芯微rknpu

发展史

早期发展

瑞芯微电子成立于2001年，最初是一家专注于集成电路设计的公司，主要产品是嵌入式处理器和相关IP。随着人工智能技术的兴起，瑞芯微开始关注到AI计算的需求，并逐步投入资源开发专用的AI加速器。

rknpu的引入

瑞芯微在原有的处理器产品基础上，引入了rknpu技术，这是一种专门为神经网络计算设计的硬件加速器。rknpu的引入标志着瑞芯微正式进入AI处理器市场，并为用户提供了一种高效的AI计算解决方案。

rknpu的迭代

瑞芯微不断迭代其rknpu产品线，推出了多个版本的NPU，每个版本都在性能、能效和兼容性方面进行了改进。以下是一些关键的迭代：

RK3399Pro：这是瑞芯微推出的一款集成了NPU核心的高性能AI处理器，适用于需要强大AI计算能力的场景。
RK1808：这款SoC集成了NPU，适用于边缘计算和工业自动化等领域，提供了平衡的性能和能效。
RK3566/RK3568：这些是瑞芯微推出的新一代处理器，其中集成了第三代rknpu，提供了更高的性能和能效比。

RK3588：瑞芯微 RK3588 芯片内置 NPU，是 RKNPU 第四代的代表产品。

支持三核合作模式，双核合作模式，核心单独工作模式。
支持整数 4、整数 8、整数 16、浮点 16、Bfloat 16 和 tf32 运算
内置的 NPU 支持 INT4/INT8/INT16/FP16/TF32 混合操作
推理工具支持：TensorFlow、Caffe、Tflite、Pytorch、Onnx NN、Android NN等
高达 6 TOPS 的神经网络加速处理性能。

技术进步

随着技术的进步，瑞芯微的rknpu在以下几个方面取得了显著的发展：

性能提升：瑞芯微不断优化NPU架构，提高了算力，使得rknpu能够处理更复杂的神经网络模型。
能效优化：通过改进设计和制造工艺，瑞芯微的rknpu在低功耗下依然能够提供高性能。
软件生态：瑞芯微为rknpu提供了软件开发工具和API，支持多种神经网络框架，使得开发者能够更容易地集成AI功能。

市场应用

瑞芯微的rknpu已经被广泛应用于多个领域，包括智能摄像头、智能家居、边缘计算、工业自动化等。随着AI技术的普及，rknpu的市场应用范围也在不断扩大。

未来展望

瑞芯微继续在AI领域进行研发投入，未来可能会推出更先进的rknpu产品，以满足不断增长的市场需求和应对激烈的行业竞争。

rknpu开发环境部署

在虚拟机下新建一个目录来存放rknn仓库，在这里我建一个mlknpu的文件夹，并将RKNN-Toolkit2仓库存放至该目录下

mkdir mlknpu
cd mlknpu

下载

通过指令下载，注意：虚拟机网络需要开启代理

git clone https://github.com/airockchip/rknn-toolkit2.git --depth 1

RKNN-Toolkit2 工具

介绍

RKNN-Toolkit2 是由瑞芯微电子（Rockchip）开发的一款深度学习模型优化和推理工具，旨在帮助开发者在瑞芯微SoC上进行AI应用的开发。

主要特点和功能

模型转换

支持将多种深度学习框架的模型（如Caffe、TensorFlow、TensorFlow Lite、ONNX、DarkNet、PyTorch等）转换为RKNN格式，使其能够在瑞芯微的NPU（神经处理单元）上运行。
支持RKNN模型的导入和导出，便于在不同的环境中使用。

量化功能

支持将浮点模型量化为定点模型，以减少模型大小和提高推理速度。目前支持的量化方法包括非对称量化（asymmetric quantized-8和asymmetric quantized-16）以及混合量化。

模型推理

能够在PC上模拟NPU运行RKNN模型，从而获取推理结果。

最低0.47元/天解锁文章