介绍

Qualcomm® 神经处理 SDK 允许用户以用户定义操作（以下简称 UDO）的形式插入自定义神经网络操作，这些操作可能并非运行时引擎本身所支持的。这些操作可以是 TensorFlow 等常用训练框架中定义的操作，也可以是基于框架扩展构建的自定义操作，但 Qualcomm® 神经处理 SDK 中不提供。它们可以在任何支持的硬件加速器上原生执行。Qualcomm® 神经处理 SDK 提供了基础架构，可以无缝执行这些操作，与执行内部支持的操作相比，其开销极小甚至为零。

UDO 包剖析

Qualcomm® 神经处理 SDK 允许用户以动态库的形式提供 UDO 实现，这些动态库可以被查询、加载和执行，从而使用其中定义的内核执行推理。Qualcomm® 神经处理 SDK 提出了“UDO 包”的概念，用户可以通过该概念轻松表达 UDO 不同组件之间的关联。这一概念是所有支持用户创建用于网络推理的 UDO 包的工具的核心。然而，需要注意的是，Qualcomm® 神经处理 SDK 在运行时仍然直接与各种 UDO 库交互，而不是与 UDO 包结构交互。因此，用户可以自由地构建独立的库，而不必严格受制于“包”的概念。

下图说明了 UDO 包的概念：

如图所示，UDO 软件包由一个注册组件和一个实现组件组成。它们通常分别用一个注册库和一组实现库来表示，每个硬件加速器都有一个实现库，每个实现库都对应一个可用的实现内核。用户可以根据需要将这两个组件构建到一个库中。

注册库包含指定所有用户定义操作及其所针对的硬件核心的方法。它还包含允许在网络创建时验证操作完整性的方法。注册库在 ARM CPU 上加载并执行。

特定于硬件的实现库公开了其他几种方法，用于实现操作实例的创建、执行、分析和销毁。这些方法通过相应软件平台支持的编程结构实现，例如用于 GPU 的 OpenCL 和用于 DSP 的 Hexagon-NN SDK。虽然特定于核心的实现文件在源代码上可能完全不同，但它们都需要使用 $SNPE_ROOT/include/SNPE/SnpeUdo 中定义的一组 C API 与 Qualcomm® 神经处理 SDK 进行交互。有关这些 API 的完整详细信息，请参阅 Qualcomm® 神经处理 SDK API。

UDO 工作流

Qualcomm® Neural Processing SDK 建议在开发 UDO 并将其集成到运行时时采用以下工作流程：

工作流程的第一步是确定模型中需要表示为用户定义操作的操作，并通过配置文件描述其属性。此文件的格式和内容在定义 UDO中进行了描述。

下一步将生成 UDO 包的组件，具体方法是创建 UDO 内核的源文件，并根据相应的工具链对其进行编译，从而生成特定于 GPU 和 DSP 等硬件内核的动态库。Qualcomm® 神经处理 SDK 提供了一个名为的工具snpe-udo-package-generator，可帮助用户创建用于与 Qualcomm® 神经处理 SDK UDO API 交互的通用框架代码，并为用户留下一些占位符，方便他们填写内核实现。它还会为 x86、Android 等常见目标以及配置文件中指定的每个目标的运行时生成 makefile。有关包生成的更多信息，请参阅创建 UDO 包。有关为特定运行时编译 UDO 包的详细信息，请参阅编译 UDO 包。

第一步中创建的配置文件也需要与实际训练好的模型一起由 Qualcomm® Neural Processing SDK 模型转换工具使用，以便使用文件中的定义解释用户定义的操作。然后，可以使用诸如 snpe-dlc-info探测模型中 UDO 属性之类的工具检查生成的 DLC 文件。有关使用 UDO 创建（以及选择性地量化）DLC 的详细信息，请参阅使用 UDO 准备模型。或者，也可以使用 Qualcomm® Neural Processing SDK 量化工具对带有 UDO 的模型进行量化，以便与 DSP 等定点运行时一起使用。量化器工具会估算网络中所有层（包括 UDO）激活的量化范围。由于该工具在 x86 主机上离线运行，因此需要为 UDO 提供 CPU 实现才能对整个网络进行推理。工作流程图中的虚线也说明了这一点。有关量化过程的详细信息，请参阅使用 UDO 量化 DLC 。

此工作流程的最后一步是能够使用 UDO 实际执行网络模型。Qualcomm® 神经处理 SDK 应用程序使用 UDO 包在对特定网络模型运行推理的流程中注册 UDO 实现。需要注意的是，这些 UDO 可以由多个 Qualcomm® 神经处理 SDK 实例同时执行，而不会出现竞争条件，从而提高网络推理的整体吞吐量。有关 UDO 包注册流程的更多详细信息，请参阅使用 UDO 运行模型。

如果 UDO 的 DSP 实现库未签名，无法在签名进程域（Qualcomm® 神经处理 SDK 应用程序的默认进程域）上执行，则需要请求使用未签名进程域。未签名进程域仅适用于 DSP 目标，并允许 Qualcomm® 神经处理 SDK 使用未签名的 UDO 实现库。要了解如何在 Qualcomm® 神经处理 SDK 应用程序中使用未签名进程域，请参阅使用 UDO 运行模型。

UDO 向后兼容性

本节指定了 UDO 包的限制：

在特定的 Qualcomm® Neural Processing SDK 发布版本上为 DSP V68 或更高版本编译的 UDO 需要与相同的发布版本一起使用，不能与不同的发布版本一起使用。
用户需要使用与特定 Qualcomm® Neural Processing SDK 版本兼容的正确的 Qualcomm® AI Direct SDK 重新编译为 DSP V68 生成的 UDO 包。

由浅入深了解高通平台UDO（1）：概述与定义UDO

UDO概述

定义 UDO