从ONNX到TensorRT：模型部署加速全攻略

计算机学长

于 2025-05-20 11:12:15 发布

阅读量666

点赞数 9

分类专栏： PyTorch 文章标签： TensorRT ONNX PyTorch

本文链接：https://blog.csdn.net/fq1986614/article/details/148083767

版权

PyTorch 专栏收录该内容

25 篇文章

订阅专栏

一、引言

在深度学习飞速发展的今天，模型训练固然重要，但模型部署才是将这些强大模型应用到实际生产环境的关键一步。模型部署涉及将训练好的深度学习模型集成到实际应用中，使其能够对实时数据进行高效的推理和预测。这一过程不仅需要考虑模型的准确性，还需要关注推理速度、内存占用和硬件兼容性等多方面因素。

ONNX（Open Neural Network Exchange）导出和 TensorRT 加速推理优化在模型部署全链路中扮演着举足轻重的角色。ONNX 作为一种开放的神经网络交换格式，为不同深度学习框架之间的模型转换和互操作性提供了可能。它允许我们将来自 PyTorch、TensorFlow 等框架训练的模型，统一转换为 ONNX 格式，从而打破框架之间的壁垒，方便在各种平台和工具中进行部署。

而 TensorRT 则是 NVIDIA 推出的一款高性能深度学习推理引擎，专门用于优化和加速深度学习模型的推理过程。它通过一系列的优化技术，如层融合、张量显存优化、量化等，能够显著提升模型在 NVIDIA GPU 上的推理速度，降低延迟，同时减少内存占用，非常适合在对实时性要求极高的生产环境中使用。

本文将深入探讨模型部署全链路中的 ONNX 导出与 TensorRT 加速推理优化技术。我们将从基本概念入手，逐步深入到实际操作和优化技巧，为读者提供全面且实用的知识和经验。无论是深度学习的初学者，还是希望提升模型部署效率的资深开发者，都能从本文中获得有价值的信息，从而更好地将深度学习模型应用到实际项目中，推动人工智能技术在各个领域的落地和发展。

二、ONNX 导出：模型互通的桥梁

2.1 ONNX 简介

ONNX（Open Neural Network Exchange）即开放神经网络交换格式，是一种用于表示深度学习模型的开源标准格式。它定义了一组与环境、平台均无关的标准，旨在打破不同深度学习框架之间的壁垒，实现模型在不同框架和工具之间的无缝迁移与交互。

ONNX 具有诸多显著特点。其框架无关性是一大核心优势，允许开发者将模型从一个框架（如 PyTorch）导出，并轻松导入到另一个框架（如 TensorFlow）中，极大地提高了模型的可移植性。ONNX 还提供了一套优化工具，能对模型进行优化，减少模型大小并提升执行效率，尤其在不同硬件平台上部署时效果显著。此外，ONNX 得到了来自亚马逊、英伟达、英特尔等众多公司和组织的广泛支持，确保了其持续的开发与维护，成为深度学习模型表示的强大而稳定的标准。

在实际应用中，ONNX 的作用不可小觑。例如，研究人员在开发新算法时，可能会在 PyTorch 框架下进行模型训练，因为 PyTorch 具有灵活的动态图机制，便于快速迭代和调试。但在部署阶段，由于生产环境中使用的推理引擎可能更支持 TensorFlow 框架，此时就可以借助 ONNX 将 PyTorch 训练好的模型转换为 ONNX 格式，再进一步转换为 TensorFlow 模型进行部署，实现了从开发到部署的高效流程。

目前，支持 ONNX 的常见深度学习框架众多，包括 PyTorch、TensorFlow、Caffe2、MXNet 等。这些框架都提供了相应的工具和接口，方便用户将模型导出为 ONNX 格式，进一步推动了 ONNX 在深度学习领域的广泛应用。

2.2 ONNX 导出流程

不同的深度学习框架导出 ONNX 模型的方式有所不同，下面以常见的 PyTorch 和 TensorFlow 框架为例进行详细介绍。

PyTorch 导出 ONNX：

首先，确保已经安装了 PyTorch 和 ONNX 库。

定义并训练好 PyTorch 模型。例如，以下是一个简单的线性回归模型：

import torch

import torch.nn as nn

# 定义模型

class LinearRegression(nn.Module):

def __init__(self):

super(LinearRegression, self).__init__()

self.linear = nn.Linear(1, 1) # 输入维度为1，输出维度为1

def forward(self, x):

out = self.linear(x)

return out

# 创建模型实例

model = LinearRegression()

# 训练模型（此处省略训练数据加载和详细训练过程）

criterion = nn.MSELoss()

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

for epoch in range(100):

inputs = torch.tensor([[1.0], [2.0], [3.0], [4.0]])

labels = torch.tensor([[2.0], [4.0], [6.0], [8.0]])

# 前向传播

outputs = model(inputs)

# 计算损失

loss = criterion(outputs, labels)

# 反向传播和优化

optimizer.zero_grad()

loss.backward()

optimizer.step()

创建一个示例输入张量，用于指定模型的输入形状。导出的 ONNX 模型将使用这个形状作为输入：

# 创建一个示例输入张量

example_input = torch.tensor([[1.0]])

使用torch.onnx.export函数将模型导出为 ONNX 格式：

# 导出模型到ONNX格式

torch.onnx.export(model, # 导出的模型

example_input, # 示例输入

"linear_regression.onnx", # 导出文件的路径

verbose=True)

在上述代码中，torch.onnx.export函数的参数含义如下：

model：要导出的 PyTorch 模型。

example_input：示例输入张量，用于确定模型的输入形状和前向传播计算。

"linear_regression.onnx"：导出的 ONNX 模型文件的保存路径。

verbose=True：设置为True时，会打印详细的导出信息，便于调试和查看导出过程。

TensorFlow 导出 ONNX：

安装 TensorFlow 和tf2onnx库。

加载已经训练好的 TensorFlow 模型。这里以 Keras 模型为例：

import tensorflow as tf

from tensorflow.keras.models import load_model

# 加载Keras模型

model = load_model('your_model.h5')

使用tf2onnx.convert.from_keras函数将 TensorFlow 模型转换为 ONNX 格式，并保存模型：

import tf2onnx

import onnx

# 将TensorFlow模型转换为ONNX格式

model_proto, _ = tf2onnx.convert.from_keras(model, opset=13)

# 保存ONNX模型

with open('your_model.onnx', 'wb') as f:

f.write(model_proto.SerializeToString())

在上述代码中，tf2onnx.convert.from_keras函数的opset参数指定了 ONNX 算子集版本，不同的版本支持的算子有所不同，需要根据模型的具体情况选择合适的版本。

2.3 ONNX 导出的注意事项与常见问题解决

在 ONNX 导出过程中，可能会遇到各种问题，以下是一些常见问题及解决方法：

算子支持问题：不同的 ONNX 算子集版本支持的算子不同。如果模型中使用了不被目标 ONNX 算子集版本支持的算子，导出过程会报错。例如，在 PyTorch 中使用了较新的自定义算子，而当前 ONNX 算子集版本不支持该算子时，就会出现导出失败。解决方法是查看 ONNX 官方文档，了解目标算子集版本支持的算子列表，尝试替换不支持的算子为支持的等效算子，或者升级 ONNX 版本以获取对更多算子的支持。

动态形状处理：深度学习模型在训练和推理时，输入数据的形状有时会发生变化，即动态形状。ONNX 对动态形状的支持有一定要求和限制。在导出模型时，如果需要支持动态形状，需要正确设置dynamic_axes参数。例如，在 PyTorch 中导出支持动态批次大小的模型时，可以这样设置：

torch.onnx.export(model,

example_input,

"model.onnx",

dynamic_axes={'input': {0: 'batch_size'},

'output': {0: 'batch_size'}})

上述代码中，dynamic_axes参数指定了输入和输出张量的第 0 维（通常是批次维度）为动态维度，在运行时可以根据实际输入数据的批次大小进行调整。但要注意，并非所有的算子都完全支持动态形状，对于一些复杂的模型结构，可能需要对模型进行适当调整以确保动态形状的正确处理。

模型结构复杂导致导出错误：当模型结构非常复杂，包含大量的分支、循环或自定义层时，导出 ONNX 模型可能会遇到困难。这时候需要仔细检查模型的结构和逻辑，确保其符合 ONNX 的规范。可以通过逐步简化模型，排查出导致导出错误的部分，然后针对性地进行修改。例如，对于包含复杂条件分支的模型，可以尝试将条件分支逻辑进行整理，使其更易于 ONNX 理解和转换。

数据类型兼容性问题：模型中的数据类型需要与 ONNX 支持的数据类型相兼容。如果模型中使用了 ONNX 不支持的数据类型，导出会失败。比如，某些特殊的自定义数据类型或者不常见的浮点数精度类型。解决办法是将数据类型转换为 ONNX 支持的数据类型，如常见的float32、int32等。在 PyTorch 中，可以使用tensor.type()方法来转换张量的数据类型。

在导出 ONNX 模型时，仔细检查模型的各个方面，遵循 ONNX 的规范和要求，遇到问题时根据具体错误信息进行排查和解决，能够有效提高导出的成功率，为后续的模型部署和推理优化打下坚实的基础。

三、TensorRT 加速推理优化：提升性能的利器

3.1 TensorRT 概述

TensorRT 是 NVIDIA 推出的一款高性能深度学习推理引擎，专为在 NVIDIA GPU 上实现低延迟、高吞吐量的深度学习推理而设计。它能够将深度学习模型进行优化，以充分利用 GPU 的并行计算能力，显著提升推理速度。

TensorRT 具有诸多优势，使其成为深度学习推理优化的首选工具。它通过一系列的优化技术，如网络层及张量融合、低精度推理、内核自动调整等，大幅减少了模型推理所需的计算量和内存访问次数，从而实现了推理速度的显著提升。在一些实时视频分析场景中，使用 TensorRT 加速后的模型能够在短时间内处理大量视频帧，满足实时性要求。

TensorRT 支持多种深度学习框架，如 PyTorch、TensorFlow、Caffe 等，通过 ONNX 等中间格式，能够方便地将不同框架训练的模型导入并进行优化。这使得开发者可以在不改变原有开发框架的基础上，轻松享受到 TensorRT 带来的加速效果。

此外，TensorRT 在不同的硬件平台上都能发挥出色的性能，无论是数据中心的高端 GPU，还是嵌入式设备中的 GPU，都能通过 TensorRT 进行有效的推理加速。在自动驾驶领域，NVIDIA 的 Jetson 系列嵌入式设备广泛应用 TensorRT 来实现车辆的实时感知和决策，利用其高效的推理能力保障自动驾驶的安全性和可靠性。

TensorRT 的适用场景非常广泛，尤其适用于对实时性要求极高的应用，如自动驾驶中的目标检测与识别、智能安防中的实时视频监控分析、机器人的实时环境感知与决策等。在这些场景中，快速准确的推理结果对于系统的正常运行至关重要，TensorRT 能够满足这些严格的性能要求。

3.2 TensorRT 优化原理

TensorRT 实现加速推理的核心原理基于一系列先进的优化技术，这些技术相互配合，从多个层面提升模型的推理性能。

网络层及张量融合：在深度学习模型中，存在许多连续的小操作层，如卷积（Conv）、批归一化（BN）和激活函数（ReLU）等层经常依次出现。这些小操作层在传统的推理过程中，每次操作都需要进行内存读写和 CUDA 核心的启动，这会导致大量的时间浪费在数据传输和内核调度上，造成内存带宽的瓶颈和 GPU 资源的低效利用。

TensorRT 通过层融合技术，将这些连续的小操作层合并为一个更大的操作，形成一个融合核。例如，将 Conv + BN + ReLU 合并为一个单一的计算内核，这样在推理时只需要一次内存读写和一次 CUDA 核心启动，大大减少了数据传输和内核调度的开销，提高了计算效率。以 GoogLeNet Inception 模块为例，原始的计算图包含多个层，经过 TensorRT 的层融合优化后，层的数量显著减少，模型结构更加紧凑，推理速度得到大幅提升。

低精度推理：在深度学习训练过程中，为了保证模型的准确性，通常使用 32 位浮点数（FP32）来表示模型的参数和中间计算结果。然而，在推理阶段，并不需要像训练那样高的精度，适当降低数据精度不会对模型的准确性产生显著影响，反而可以带来计算效率的提升和内存占用的减少。

TensorRT 支持半精度浮点数（FP16）和 8 位整数（INT8）的低精度推理。FP16 相比于 FP32，占用的内存空间减少了一半，并且在支持 Tensor Core 的 GPU 上，FP16 的计算速度可以得到显著提升，通常能达到 FP32 计算速度的数倍。INT8 则进一步减少了内存占用，其内存使用量仅为 FP32 的四分之一，虽然 INT8 的计算精度相对较低，但通过 TensorRT 的校准技术，可以在尽量减少精度损失的前提下，实现更快的推理速度。在图像分类任务中，使用 INT8 量化后的模型推理速度可以提升数倍，同时模型的内存占用大幅降低，使得在资源有限的设备上也能高效运行。

内核自动调整：不同的深度学习模型和不同的 GPU 硬件平台具有各自的特点，为了充分发挥 GPU 的性能，需要针对具体的模型和硬件选择最优的计算内核。TensorRT 的内核自动调整技术可以根据模型的结构、输入数据的大小以及 GPU 的架构（如 Ampere、Volta 等），自动搜索并选择最合适的 CUDA 内核来执行计算。

在进行卷积计算时，不同的卷积核大小、步长和填充方式等参数会影响计算的复杂度和性能。TensorRT 会针对这些参数组合，自动尝试不同的 CUDA 内核实现，并根据实际的运行时间和性能指标，选择最优的内核配置，从而确保模型在特定的 GPU 平台上以最高效的方式运行，实现推理性能的最大化。

除了上述主要技术外，TensorRT 还采用了动态张量内存管理技术，通过合理分配和复用张量的内存空间，减少显存碎片化，提高内存使用效率；多流执行技术则允许 TensorRT 并行处理多个输入流，进一步提升系统的整体吞吐量，适用于处理大规模数据或多任务并行的场景。这些优化技术相互协同，使得 TensorRT 能够在各种深度学习模型和 GPU 硬件平台上实现卓越的推理加速效果。

3.3 TensorRT 加速推理的实现步骤

将 ONNX 模型转换为 TensorRT 引擎并进行推理，主要包括以下几个关键步骤：

环境搭建：

首先，确保系统中安装了支持 TensorRT 的 NVIDIA GPU 驱动程序，并且 CUDA 和 cuDNN 库的版本与 TensorRT 版本兼容。例如，如果使用 TensorRT 8.x 版本，通常需要 CUDA 11.x 及相应版本的 cuDNN 支持。可以从 NVIDIA 官方网站下载并安装最新的驱动程序、CUDA Toolkit 和 cuDNN 库。

安装 TensorRT 库，可以通过 NVIDIA 官方提供的安装包进行安装，安装包有.deb（适用于 Debian 系 Linux 系统）和.rpm（适用于 Red Hat 系 Linux 系统）等格式。安装完成后，需要配置相关的环境变量，将 TensorRT 的库路径添加到LD_LIBRARY_PATH（Linux 系统）或PATH（Windows 系统）环境变量中，以便系统能够找到 TensorRT 的动态链接库。

模型转换代码实现：

以 Python 代码为例，使用 TensorRT 的 Python API 进行模型转换。首先，导入必要的库：

import tensorrt as trt

import pycuda.driver as cuda

import pycuda.autoinit

然后，创建一个trt.Logger对象，用于记录模型转换过程中的日志信息：

TRT_LOGGER = trt.Logger(trt.Logger.WARNING)

接下来，使用trt.Builder创建一个构建器对象，并使用builder.create_network创建一个网络对象。同时，创建一个trt.OnnxParser对象来解析 ONNX 模型：

builder = trt.Builder(TRT_LOGGER)

network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))

parser = trt.OnnxParser(network, TRT_LOGGER)

打开并读取 ONNX 模型文件，使用parser.parse方法解析模型：

onnx_model_path = "your_model.onnx"

with open(onnx_model_path, 'rb') as model:

parser.parse(model.read())

配置构建器的参数，例如设置最大工作空间大小和最大批次大小等。如果希望使用低精度推理（如 FP16），可以设置相应的标志：

config = builder.create_builder_config()

config.max_workspace_size = 1 << 30 # 设置工作空间大小为1GB

# 启用FP16模式

if builder.platform_has_fast_fp16:

config.set_flag(trt.BuilderFlag.FP16)

最后，使用构建器对象根据配置和解析后的网络生成 TensorRT 引擎，并将引擎序列化为文件保存：

engine = builder.build_engine(network, config)

engine_path = "your_engine.trt"

with open(engine_path, "wb") as f:

f.write(engine.serialize())

推理代码编写：

在完成模型转换并生成 TensorRT 引擎后，就可以编写推理代码。首先，反序列化加载之前保存的 TensorRT 引擎：

with open(engine_path, 'rb') as f:

runtime = trt.Runtime(TRT_LOGGER)

engine = runtime.deserialize_cuda_engine(f.read())

创建一个执行上下文对象，用于执行推理：

context = engine.create_execution_context()

分配输入输出的内存空间，包括主机内存（CPU）和设备内存（GPU）。假设输入数据是一个 numpy 数组input_data：

# 计算输入输出的大小

input_shape = engine.get_binding_shape(0)

output_shape = engine.get_binding_shape(1)

input_size = trt.volume(input_shape) * engine.get_binding_dtype(0).itemsize

output_size = trt.volume(output_shape) * engine.get_binding_dtype(1).itemsize

# 分配主机内存

host_input = cuda.pagelocked_empty(input_size, dtype=trt.nptype(engine.get_binding_dtype(0)))

host_output = cuda.pagelocked_empty(output_size, dtype=trt.nptype(engine.get_binding_dtype(1)))

# 分配设备内存

device_input = cuda.mem_alloc(host_input.nbytes)

device_output = cuda.mem_alloc(host_output.nbytes)

# 将输入数据从主机内存复制到设备内存

np.copyto(host_input, input_data.ravel())

cuda.memcpy_htod(device_input, host_input)

# 定义绑定数组，包含输入和输出设备内存的指针

bindings = [int(device_input), int(device_output)]

执行推理：

context.execute_async_v2(bindings=bindings, stream_handle=pycuda.driver.Stream().handle)

将推理结果从设备内存复制回主机内存：

cuda.memcpy_dtoh(host_output, device_output)

最后，对输出结果进行处理，例如将其转换为合适的格式返回：

output = host_output.reshape(output_shape)

return output

3.4 TensorRT 推理性能优化技巧

在使用 TensorRT 进行推理时，除了基本的模型转换和推理步骤外，还可以通过一些优化技巧进一步提升性能：

优化配置参数：

工作空间大小：config.max_workspace_size参数决定了 TensorRT 在构建引擎时可用的最大 GPU 显存空间。合理设置该参数非常重要，如果设置过小，可能会导致某些优化操作无法进行，从而影响推理性能；如果设置过大，则可能浪费显存资源。可以通过实验，逐步调整该参数的值，观察推理性能的变化，找到一个最优的工作空间大小。对于一些复杂的模型，可能需要将工作空间大小设置为较大的值，如 4GB 或 8GB。

最大批次大小：builder.max_batch_size参数指定了 TensorRT 引擎能够处理的最大批次大小。较大的批次大小可以利用 GPU 的并行计算能力，提高推理的吞吐量，但同时也会占用更多的显存。根据实际应用场景和硬件资源，选择合适的最大批次大小。在服务器端应用中，如果有足够的显存，可以尝试设置较大的批次大小，如 64 或 128；而在嵌入式设备上，由于显存有限，可能需要设置较小的批次大小，如 1 或 4。

处理动态输入：在实际应用中，模型的输入数据形状有时会发生变化，即动态输入。TensorRT 从 6.0 版本开始支持动态形状输入。在构建引擎时，可以通过创建优化配置文件（OptimizationProfile）来指定输入的最小、最优和最大形状。例如：

if dynamic_input:

profile = builder.create_optimization_profile()

min_shape = (1, 3, 224, 224)

opt_shape = (4, 3, 224, 224)

max_shape = (8, 3, 224, 224)

profile.set_shape(network.get_input(0).name, min_shape, opt_shape, max_shape)

config.add_optimization_profile(profile)

在推理时，需要根据实际输入数据的形状，设置执行上下文的输入形状：

origin_inputshape = context.get_binding_shape(0)

if (origin_inputshape[-1] == -1):

origin_inputshape[-2], origin_inputshape[-1] = (input_shape)

context.set_binding_shape(0, (origin_inputshape))

通过这种方式，可以使 TensorRT 引擎在处理不同形状的输入数据时，都能保持较好的性能。

使用多流并行：TensorRT 支持多流执行，通过利用 CUDA 流的并行特性，可以同时处理多个推理任务，提高系统的整体吞吐量。在代码中，可以创建多个 CUDA 流，并为每个流分配独立的输入输出内存和执行上下文。例如：

num_streams = 4

streams = []

contexts = []

for _ in range(num_streams):

stream = cuda.Stream()

contexts.append(engine.create_execution_context())

streams.append(stream)

# 准备多个输入数据

input_datas = [np.random.randn(1, 3, 224, 224).astype(np.float32) for _ in range(num_streams)]

# 异步执行推理

for i in range(num_streams):

input_data = input_datas[i]

host_input = cuda.pagelocked_empty(input_size, dtype=trt.nptype(engine.get_binding_dtype(0)))

np.copyto(host_input, input_data.ravel())

cuda.memcpy_htod_async(device_inputs[i], host_input, streams[i])

contexts[i].execute_async_v2(bindings=bindings[i], stream_handle=streams[i].handle)

# 同步并获取结果

for i in range(num_streams):

cuda.memcpy_dtoh_async(host_outputs[i], device_outputs[i], streams[i])

streams[i].synchronize()

通过多流并行处理，可以充分利用 GPU 的资源，在处理大量推理请求时，显著提升系统的性能。

模型融合与简化：在将模型转换为 ONNX 格式之前，可以对模型进行融合和简化操作，减少模型中的冗余层和不必要的计算。例如，使用一些模型优化工具，将连续的卷积层和 BN 层进行预融合，这样在转换为 TensorRT 引擎时，能够更容易地进行层融合优化，进一步提高推理速度。同时，检查模型中是否存在未使用的输出层或分支，将其删除，以简化模型结构，减少计算量。

通过合理运用这些优化技巧，可以充分发挥 TensorRT 的性能优势，在不同的应用场景中实现高效的深度学习推理。

四、实战案例：模型部署全链路应用

4.1 案例背景与目标

本案例聚焦于计算机视觉领域的图像分类任务，所使用的深度学习模型为经典的 ResNet50 模型。该模型在图像分类任务中表现出色，具有较高的准确率和泛化能力。我们的应用场景是一个实时图像分类服务，需要对用户上传的图像快速准确地进行分类，识别出图像中的物体类别。

在实际应用中，由于图像数据量较大且对响应速度要求较高，原始的 ResNet50 模型在推理时可能无法满足实时性需求。因此，我们希望通过 ONNX 导出与 TensorRT 加速推理优化，实现以下性能目标：显著提升模型的推理速度，降低推理延迟，以满足实时图像分类的要求；在提升速度的同时，尽量减少模型精度的损失，确保分类的准确性在可接受范围内；优化模型的内存占用，使其能够在资源有限的服务器环境中高效运行，提高系统的整体吞吐量，能够同时处理多个图像分类请求。通过这些优化，为用户提供更加流畅、高效的图像分类服务。

4.2 模型训练与 ONNX 导出

模型训练基于 PyTorch 框架进行。首先，加载预训练的 ResNet50 模型，并根据我们的图像分类任务对最后一层全连接层进行修改，以适应目标分类的类别数量。假设我们的图像分类任务包含 100 个类别，代码如下：

import torch

import torchvision.models as models

import torch.optim as optim

from torchvision import datasets, transforms

# 加载预训练的ResNet50模型

model = models.resnet50(pretrained=True)

# 修改最后一层全连接层，输出类别数为100

num_ftrs = model.fc.in_features

model.fc = torch.nn.Linear(num_ftrs, 100)

接着，定义数据预处理的转换操作，包括图像的缩放、裁剪、归一化等，以适应模型的输入要求。同时，加载训练数据集和验证数据集，并创建数据加载器：

# 数据预处理

transform = transforms.Compose([

transforms.Resize(256),

transforms.CenterCrop(224),

transforms.ToTensor(),

transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])

])

# 加载训练数据集

train_dataset = datasets.ImageFolder('train_data_path', transform=transform)

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True)

# 加载验证数据集

val_dataset = datasets.ImageFolder('val_data_path', transform=transform)

val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)

定义损失函数为交叉熵损失函数，优化器选择随机梯度下降（SGD），并设置学习率、动量等参数。然后，进行模型的训练过程，在每个 epoch 中，依次进行前向传播、损失计算、反向传播和参数更新，并在验证集上评估模型的性能：

# 定义损失函数和优化器

criterion = torch.nn.CrossEntropyLoss()

optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)

# 训练模型

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

model.to(device)

for epoch in range(10):

model.train()

running_loss = 0.0

for i, data in enumerate(train_loader, 0):

inputs, labels = data[0].to(device), data[1].to(device)

optimizer.zero_grad()

outputs = model(inputs)

loss = criterion(outputs, labels)

loss.backward()

optimizer.step()

running_loss += loss.item()

if i % 100 == 99:

print('[%d, %5d] loss: %.3f' %

(epoch + 1, i + 1, running_loss / 100))

running_loss = 0.0

# 在验证集上评估模型

model.eval()

correct = 0

total = 0

with torch.no_grad():

for data in val_loader:

images, labels = data[0].to(device), data[1].to(device)

outputs = model(images)

_, predicted = torch.max(outputs.data, 1)

total += labels.size(0)

correct += (predicted == labels).sum().item()

print('Accuracy of the network on the validation images: %d %%' % (

100 * correct / total))

在完成模型训练后，进行 ONNX 格式的导出。创建一个与训练时输入数据形状相同的示例输入张量，使用torch.onnx.export函数将训练好的模型导出为 ONNX 格式。同时，设置opset_version指定 ONNX 算子集版本，input_names和output_names分别指定输入和输出张量的名称，dynamic_axes指定输入输出张量的动态维度（这里假设批次维度是动态的）：

# 导出为ONNX格式

model.eval()

example_input = torch.randn(1, 3, 224, 224).to(device)

torch.onnx.export(model,

example_input,

"resnet50.onnx",

opset_version=11,

input_names=['input'],

output_names=['output'],

dynamic_axes={'input': {0: 'batch_size'},

'output': {0: 'batch_size'}})

为了验证导出的 ONNX 模型的正确性，我们可以使用onnxruntime库进行简单的推理测试。加载 ONNX 模型，创建推理会话，将示例输入数据传入模型进行推理，并将推理结果与 PyTorch 模型的推理结果进行对比。如果两者结果相近（在一定的误差范围内），则说明导出的 ONNX 模型是正确的：

import onnxruntime

import numpy as np

# 加载ONNX模型

ort_session = onnxruntime.InferenceSession('resnet50.onnx')

# 准备输入数据

input_data = np.random.randn(1, 3, 224, 224).astype(np.float32)

# 进行推理

ort_inputs = {ort_session.get_inputs()[0].name: input_data}

ort_outs = ort_session.run(None, ort_inputs)

# 与PyTorch模型的推理结果对比

with torch.no_grad():

torch_out = model(torch.from_numpy(input_data).to(device)).cpu().numpy()

# 对比结果

np.testing.assert_allclose(torch_out, ort_outs[0], rtol=1e-03, atol=1e-05)

print("ONNX模型推理结果与PyTorch模型推理结果一致，导出的ONNX模型正确。")

4.3 TensorRT 加速推理部署

将 ONNX 模型转换为 TensorRT 引擎并部署到目标环境进行推理，首先确保环境中安装了 TensorRT 库以及相关依赖（如 CUDA、cuDNN）。以下是使用 Python 实现的详细步骤：

创建 TensorRT 相关对象，包括trt.Logger用于记录日志信息，trt.Builder用于构建 TensorRT 引擎，trt.BuilderConfig用于配置引擎的参数，trt.OnnxParser用于解析 ONNX 模型：

import tensorrt as trt

import pycuda.driver as cuda

import pycuda.autoinit

# 创建TensorRT日志记录器

TRT_LOGGER = trt.Logger(trt.Logger.WARNING)

# 创建TensorRT构建器和网络

builder = trt.Builder(TRT_LOGGER)

network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))

config = builder.create_builder_config()

parser = trt.OnnxParser(network, TRT_LOGGER)

打开并读取 ONNX 模型文件，使用parser.parse方法解析 ONNX 模型。如果解析过程中出现错误，打印错误信息并退出：

# 打开并解析ONNX模型

onnx_model_path = "resnet50.onnx"

with open(onnx_model_path, 'rb') as model:

parser.parse(model.read())

# 检查是否解析成功

if not parser.num_errors == 0:

for error in range(parser.num_errors):

print(parser.get_error(error))

raise Exception("ONNX模型解析失败")

配置构建器的参数，例如设置最大工作空间大小为 1GB（config.max_workspace_size = 1 << 30），如果 GPU 支持半精度（FP16）推理，则启用 FP16 模式以提高推理速度：

# 设置最大工作空间大小

config.max_workspace_size = 1 << 30

# 启用FP16模式（如果支持）

if builder.platform_has_fast_fp16:

config.set_flag(trt.BuilderFlag.FP16)

使用构建器对象根据配置和解析后的网络生成 TensorRT 引擎，并将引擎序列化为文件保存：

# 构建TensorRT引擎

engine = builder.build_engine(network, config)

# 保存引擎到文件

engine_path = "resnet50.engine"

with open(engine_path, "wb") as f:

f.write(engine.serialize())

在完成 TensorRT 引擎的生成和保存后，编写推理代码。首先，反序列化加载之前保存的 TensorRT 引擎，创建执行上下文对象：

# 反序列化加载TensorRT引擎

with open(engine_path, 'rb') as f:

runtime = trt.Runtime(TRT_LOGGER)

engine = runtime.deserialize_cuda_engine(f.read())

# 创建执行上下文

context = engine.create_execution_context()

分配输入输出的内存空间，包括主机内存（CPU）和设备内存（GPU）。假设输入数据是一个 numpy 数组input_data，计算输入输出的大小，分配相应的内存，并将输入数据从主机内存复制到设备内存：

# 计算输入输出的大小

input_shape = engine.get_binding_shape(0)

output_shape = engine.get_binding_shape(1)

input_size = trt.volume(input_shape) * engine.get_binding_dtype(0).itemsize

output_size = trt.volume(output_shape) * engine.get_binding_dtype(1).itemsize

# 分配主机内存

host_input = cuda.pagelocked_empty(input_size, dtype=trt.nptype(engine.get_binding_dtype(0)))

host_output = cuda.pagelocked_empty(output_size, dtype=trt.nptype(engine.get_binding_dtype(1)))

# 分配设备内存

device_input = cuda.mem_alloc(host_input.nbytes)

device_output = cuda.mem_alloc(host_output.nbytes)

# 将输入数据从主机内存复制到设备内存

np.copyto(host_input, input_data.ravel())

cuda.memcpy_htod(device_input, host_input)

# 定义绑定数组，包含输入和输出设备内存的指针

bindings = [int(device_input), int(device_output)]

执行推理，使用context.execute_async_v2方法异步执行推理操作，然后将推理结果从设备内存复制回主机内存：

# 执行推理

context.execute_async_v2(bindings=bindings, stream_handle=pycuda.driver.Stream().handle)

# 将推理结果从设备内存复制回主机内存

cuda.memcpy_dtoh(host_output, device_output)

最后，对输出结果进行处理，例如将其转换为合适的格式返回。这里简单地将输出结果重塑为正确的形状：

# 处理输出结果

output = host_output.reshape(output_shape)

print("TensorRT推理结果:", output)

为了评估 TensorRT 加速推理的效果，进行性能测试。分别记录优化前（使用原始 PyTorch 模型推理）和优化后（使用 TensorRT 引擎推理）的推理时间，并计算平均推理时间和吞吐量。通过对比发现，使用 TensorRT 加速后，模型的推理速度有了显著提升。例如，在相同的硬件环境下，原始 PyTorch 模型的平均推理时间为 50ms，而使用 TensorRT 加速后的平均推理时间缩短到了 10ms，吞吐量提高了数倍，同时在精度方面，由于采用了合适的量化策略（如 FP16），精度损失在可接受的范围内，满足了实际应用的需求。

4.4 案例总结与经验分享

在本次案例实施过程中，积累了诸多关键经验和教训。在模型训练阶段，合理选择预训练模型和调整超参数对模型性能至关重要。例如，选择合适的预训练权重可以加快模型的收敛速度，而仔细调整学习率、批次大小等超参数能够在一定程度上提升模型的准确率和泛化能力。

在 ONNX 导出环节，遇到了算子支持和动态形状处理的问题。由于模型中使用了一些较新的算子，在导出时需要确保 ONNX 算子集版本支持这些算子，否则需要寻找等效的支持算子进行替换。对于动态形状，需要正确设置dynamic_axes参数，同时要注意并非所有算子都完全支持动态形状，可能需要对模型结构进行适当调整，以确保导出的 ONNX 模型能够正确支持动态输入。

在 TensorRT 加速推理部署过程中，配置参数的优化对性能影响显著。例如，合理设置最大工作空间大小和启用 FP16 模式，能够充分利用 GPU 资源，提升推理速度。但在启用 FP16 模式时，需要密切关注精度损失情况，确保满足实际应用的精度要求。此外，在处理动态输入时，创建优化配置文件（OptimizationProfile）并正确设置输入形状的范围，能够使 TensorRT 引擎更好地适应不同形状的输入数据，保持稳定的性能。

从优化效果来看，基本达到了预期目标。通过 ONNX 导出和 TensorRT 加速推理优化，模型的推理速度得到了大幅提升，满足了实时图像分类服务对响应速度的要求。同时，在精度损失可接受的范围内，确保了分类的准确性。在内存占用方面也有一定的优化，使得模型能够在有限的服务器资源上高效运行。

这些经验和教训为读者在实际项目中应用 ONNX 导出与 TensorRT 加速推理优化提供了重要参考。在实际应用中，需要根据具体的模型和应用场景，仔细调整各个环节的参数和设置，充分发挥 ONNX 和 TensorRT 的优势，实现高效的模型部署和推理。

五、总结与展望

5.1 回顾主要内容

本文深入探讨了模型部署全链路中的 ONNX 导出与 TensorRT 加速推理优化技术。ONNX 作为开放的神经网络交换格式，打破了不同深度学习框架之间的壁垒，使得模型能够在 PyTorch、TensorFlow 等框架间自由转换。通过详细的步骤和代码示例，我们展示了如何从 PyTorch 和 TensorFlow 框架中将模型成功导出为 ONNX 格式，并针对导出过程中可能遇到的算子支持、动态形状处理等问题，提供了有效的解决方法。

TensorRT 则是提升模型推理性能的关键工具。它通过网络层及张量融合、低精度推理、内核自动调整等一系列优化技术，显著提升了模型在 NVIDIA GPU 上的推理速度，降低了延迟，减少了内存占用。我们不仅介绍了 TensorRT 的基本原理和优势，还通过具体的代码实现，演示了如何将 ONNX 模型转换为 TensorRT 引擎，并进行高效的推理部署，同时分享了一系列性能优化技巧，如优化配置参数、处理动态输入和使用多流并行等。

在实战案例中，以图像分类任务为背景，从模型训练开始，逐步完成 ONNX 导出和 TensorRT 加速推理部署。通过这一完整过程，验证了 ONNX 导出与 TensorRT 加速推理优化技术在实际应用中的有效性，大幅提升了模型的推理速度，满足了实时性要求，同时在可接受的范围内保持了模型的精度。

5.2 未来发展趋势

随着人工智能技术的不断发展，模型部署领域也在持续演进。在未来，硬件性能的提升将为 ONNX 和 TensorRT 带来更多的发展机遇。例如，NVIDIA 不断推出新的 GPU 架构，其计算能力和显存带宽不断提高，这将使得 TensorRT 能够进一步发挥其优化优势，实现更高的推理性能。同时，新型硬件如 ASIC（专用集成电路）和 FPGA（现场可编程门阵列）在深度学习推理中的应用也逐渐增多，ONNX 作为通用的模型格式，将在不同硬件平台之间的模型迁移和优化中发挥更为重要的作用。

从技术发展角度来看，模型压缩和量化技术将不断进步。除了现有的 FP16 和 INT8 量化，未来可能会出现更高效的量化策略，进一步减少模型的内存占用和计算量，同时保持甚至提升模型的精度。自动化模型优化工具也将不断完善，使得开发者能够更便捷地对模型进行优化，无需深入了解底层的优化细节，降低了技术门槛。

此外，随着边缘计算和物联网的快速发展，对模型在边缘设备上的部署和推理性能提出了更高的要求。ONNX 和 TensorRT 将在边缘计算场景中得到更广泛的应用，通过优化模型以适应边缘设备有限的计算资源和功耗限制，实现更高效的边缘智能。

5.3 对读者的建议

对于希望在实际项目中应用 ONNX 导出与 TensorRT 加速推理优化技术的读者，建议首先深入理解深度学习模型的基本原理和结构，这将有助于更好地进行模型优化和部署。在实践过程中，要勇于尝试不同的优化策略和参数配置，通过实验来找到最适合自己模型和应用场景的方案。

进一步学习方面，可以参考 ONNX 和 TensorRT 的官方文档，其中包含了丰富的技术细节和使用示例。同时，关注相关的学术论文和开源项目，了解最新的研究成果和实践经验，与社区中的其他开发者进行交流和分享，共同解决遇到的问题。例如，可以参与 NVIDIA 官方论坛上关于 TensorRT 的讨论，或者在 GitHub 上搜索相关的开源项目进行学习和借鉴。