深鉴科技DNNDK概览_dnnkq-CSDN博客

本文链接：https://blog.csdn.net/weixin_36474809/article/details/82585091

背景：深鉴科技的DNNDK，是一个基于xilinx FPGA的SDK端的深度学习开发工具包，能够快速的实现深度学习的硬件化。

目的：了解深鉴科技DNNDK内容。

参考内容：http://www.deephi.com/technology/dnndk

deephi_dnndk_1.10_beta\docs user Guide

1.概览

DNNDK™ (Deep Neural Network Development Kit) - DeePhi™ deep learning SDK, is designed as an integrated framework, which aims to simplify & accelerate DL (Deep Learning) applications development and deployment on DeePhi DPU™ (Deep Learning Processing Unit) platform. (Click DNNDK for more information.)

1.1 DNNDK基于什么？

深鉴科技基于 XILINX FPGA芯片（包括 ZYNQ-7020，ZU2，ZU3，ZU9， KU115等）实现了多个DPU开发平台（2018年将对外提供深鉴自主研发的对外提供深鉴自主研发的 DPU Soc芯片），DNNDK对所有 DPU开发平台向用户提供统一的工具链和户编程接口 APIs。

1.2 DP-8000开发板

运用zynq7020芯片，开发板与FPGA芯片是不一样的。

A complete set of solid optimization toolchains, covering compression, compilation and runtime
Lightweight standard C/C++ programming APIs
Easy-to-use & flat/gentle learning curve

2. DNNDK Framework

DNNDK组成：

DEep ComprEssioN Tool (DECENT),深度压缩工具：提供剪枝和定点化运算。
Deep Neural Network Compiler (DNNC), 神经网络编译器：将网络算法编译到DPU平台高效运行。运用DECENT后的caffe网络模型作为输入。
Deep Neural Network Assembler (DNNAS), 神经网络集成器：将DPU指令流会编程标准的ELF二进制文件
Neural Network Runtime (N2Cube), 神经网络运行，运行时支持环境，神经网络的加载，资源管理，调度。N2Cube核心组件包括四个部分 : DPU驱动程序 (Driver)，加载器 (Loader)、性能分析器 (Profiler)及编程开发库编程开发库 (Library)。
DPU Simulator and Profiler. 深度学习处理单元模拟器。simulator用于验证二进制指令流，只是深鉴科技内部使用，没有对外发布。

3. DPU应用部署

1. 模型压缩（主机）
2. 模型编译（主机）
3. DPU编程开发（主机或开发板）
4. 混合编译（开发板）
5. 运行（开发板）

3.1 模型压缩

DECENT工具

3.2 模型编译

编译器前端（ Parser）主要处理网络模型的分析与转换，解析输入网络模型的拓扑结构并将其为 DNNC内部与深度学习框架生成的计算图用IR表示。
中端为优化器（Optimizer），它基于内部IR实施各种编译优化遍，包括融合计算图中不同节点间的操作、高效调度指令、充分复用 DPU片上数据等。
代码生成器（Code-generator）为DNNC编译后端，主要负责把经过中端优化后的计算图IR映射成为高效运行在DPU上的指令流。

4. DPU编程

4.1 DPU Kernel

将神经网络实现为FPGA上实体（可以看作IPcore）。
DPU Kernel可以理解为在DPU平台上部署的平台上部署的一个深度学习网络模型的实体。每个神经网络对应一个 DPU汇编文件，通过调用DPU运行N2Cube时的dpuLoadKernel()成为一个可运行实体。 DPU的运行时将其加载到特定内存空间并为其分配硬件资源。然后通过调用 dpuCreateTask()将其实例化为多个DPU Task。