onnx 模型导出为 trt 模型

本文档详细介绍了在Windows系统中配置TensorRT的步骤,包括使用Python API检查精度支持和利用trtexec命令行工具进行模型转换。对于精度转换,需先了解GPU的CUDA计算能力以确定支持的精度模式。遇到网络动态shape问题时,推荐使用trtexec进行转化,提供示例命令行参数以完成不同精度的模型构建。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

linux 环境类似,本篇针对 Windows 环境

按照这篇文章配置一下 TensorRT 的环境:
TensorRT windows10 安装过程记录

方法一:代码转化

可以直接用TensorRT Python API 中的 onnx Parser 来读取然后序列化模型并保存

但是,在这个过程中,实际上已经进行了构建,或者直接说,就是 build 过程,所以要进行精度转换到TF32、FP32或者INT8,就要在保存之前搞定。

要进行转换之前,先看看你的平台是否支持对应的精度:

  1. 要么根据你的显卡型号,在这里查看一下你的CUDA计算能力版本 —> CUDA计算能力表,然后更根据该版本,来查阅是否支持对应的精度 --> 硬件支持的精度模式
    举个例子,我是 GTX1650Ti的显卡:
    在这里插入图片描述
    计算能力是7.5,然后查阅这个表格:
    在这里插入图片描述
    可以看到,该版本的卡不支持 TF32 和 DLA

  2. 要么,根据 该博客的 API 来创建一个 builder,然后用这仨API来看看是否支持对应的精度:

import tensorrt as trt
logger = trt.Logger(trt.Logger.WARNING)
builder = trt.Builder(logger)

>>> builder.platform_has_fast_fp16
True

>>> builder.platform_has_fast_int8
True

>>> builder.platform_has_tf32
False

以上是GTX 1650Ti最后的精度支持情况

知道了精度支持情况,接下来,根据这篇博客的内容:Python API解析 的第一部分来进行转化即可

转化过程中,如何指定精度,可以参考这篇博客:
https://blog.csdn.net/HaoZiHuang/article/details/125830788

稍微提示一下,如果你不知道 Config 对象在哪,他是在 builder 已经创建之后才实例化的:

config = builder.create_builder_config()

额,还是参考这篇Python API解析

用脚本转换和用 onnx2trt 转化,都有同一个问题:

[07/29/2022-16:50:05] [TRT] [E] 4: [network.cpp::validate::2965] Error Code 4: Internal Error (Network has dynamic or shape inputs, but no optimization profile has been defined.)
[07/29/2022-16:50:05] [TRT] [E] 2: [builder.cpp::buildSerializedNetwork::636] Error Code 2: Internal Error (Assertion engine != nullptr failed. )

网络存在动态shape的问题,我至今没有解决,所以一直用 trtexec 来转换(也就是下边的方法二)

方法二:命令行转化

还记的我在这篇博客中提到一嘴的 trtexec

命令行转化,就没有那么花里胡哨:

trtexec --onnx=output.onnx --saveEngine=outfp32.engine --workspace=2048 --minShapes=x:1x3x224x224 --optShapes=x:1x3x224x224 --maxShapes=x:1x3x224x224

trtexec --onnx=output.onnx --saveEngine=outfp16.engine --workspace=2048 --minShapes=x:1x3x224x224 --optShapes=x:1x3x224x224 --maxShapes=x:1x3x224x224 --fp16

trtexec --onnx=output.onnx --saveEngine=outfpi8.engine --workspace=2048 --minShapes=x:1x3x224x224 --optShapes=x:1x3x224x224 --maxShapes=x:1x3x224x224  --int8

trtexec --onnx=output.onnx --saveEngine=outfpbest.engine --workspace=2048 --minShapes=x:1x3x224x224 --optShapes=x:1x3x224x224 --maxShapes=x:1x3x224x224  --best

上边共有4行,分别是 fp32、fp16、int8 和 最优策略

最后一个 --best , 一般无脑选择这个就OK了,TensorRT的算法会自动去找最快的

然而实际上,不是你指定 --int8 他就一定是int8的,只是首选项是 --int8,具体可以再去看这篇关于精度的介绍:TensorRT 中 Reduced Precision, 看不懂的话就去看英文原文吧…

稍微说说其他参数:

--onnx=output.onnx                               # 要转化的 onnx 模型
--saveEngine=outfp32.engine                      # 输出的位置
--workspace=2048                                 # 设置工作区大小,单位是 MB
--minShapes=x:1x3x224x224                        # 这是要校准模型的最小输入,输入张量名称为 `x`
--optShapes=x:1x3x224x224 
--maxShapes=x:1x3x224x224

其实,我也不知道下边这三怎么翻译,hxd凑合着看吧:

  --minShapes=spec            Build with dynamic shapes using a profile with the min shapes provided
  --optShapes=spec            Build with dynamic shapes using a profile with the opt shapes provided
  --maxShapes=spec            Build with dynamic shapes using a profile with the max shapes provided

主要是前几个参数,后几个不重要hh

<think>嗯,用户遇到了ONNX动态输入模型换到TensorRT失败的问题。我需要先理解ONNXTensorRT的关系。根据引用[1],ONNX-TensorRT项目主要是为了给ONNX模型提供TensorRT的支持,而TensorRT是NVIDIA的推理库,用来加速模型。动态输入可能是指输入形状不固定,这在处理不同尺寸的输入时很常见,比如图像或文本处理。 用户的问题可能出在动态维度上。TensorRT换时需要明确的形状信息,而动态输入可能会导致换失败。引用[2]提到使用trtexec工具进行换,但可能需要额外的参数来指定动态维度。例如,用--minShapes、--optShapes和--maxShapes来定义输入的最小、最优和最大形状。这样TensorRT才能为动态输入生成优化引擎。 另外,引用[3]中提到了使用ONNX runtime来验证模型是否正确,这一步可能在换前也很重要。用户可能需要检查ONNX模型是否已经正确简化(比如使用onnx-simplifier),动态维度是否正确标记。如果ONNX模型本身存在问题,比如某些操作不被TensorRT支持,换也会失败。比如,某些自定义操作或动态控制流可能不被支持,需要替换为兼容的层。 还有,用户可能需要明确指定动态维度。在导出ONNX模型时,使用dynamic_axes参数来定义哪些维度是动态的。例如,在PyTorch中使用torch.onnx.export时设置dynamic_axes,确保导出模型正确标记了动态维度。换时,trtexec需要这些形状参数来构建引擎。 此外,日志分析也很关键。启用verbose输出(如添加--verbose参数)可以帮助查看换过程中的具体错误,比如不支持的层或形状不匹配。用户需要根据错误信息调整模型结构或换参数。 可能还需要更新软件版本,比如确保ONNXTensorRTONNX-TensorRT的版本兼容。有时新版本修复了旧版本的问题,或者支持更多的操作符。 总结步骤应该是:检查动态输入定义是否正确,使用trtexec指定动态形状,验证ONNX模型,处理不支持的算子,检查版本兼容性,查看详细日志定位问题。然后根据具体情况调整模型换参数。</think>### ONNX动态输入模型换至TensorRT失败的解决方案 #### 1. **明确动态输入的定义与限制** 在ONNX模型中,动态输入通常通过`dynamic_axes`参数定义,例如在PyTorch导出模型时指定可变维度。TensorRT对动态输入的支持有限,需满足以下条件: - 动态维度需在换时通过`--minShapes`、`--optShapes`、`--maxShapes`明确指定[^2]。 - 动态维度仅支持批量大小(batch size)或序列长度(sequence length),某些操作(如Reshape)可能因动态输入导致形状推导失败[^1]。 #### 2. **使用trtexec显式指定动态形状** 通过TensorRT命令行工具`trtexec`,显式定义输入形状的上下限: ```bash trtexec --onnx=model.onnx --saveEngine=model.trt \ --minShapes=input:1x3x224x224 \ --optShapes=input:4x3x224x224 \ --maxShapes=input:8x3x224x224 ``` 此命令为输入名为`input`的张量指定了最小、最优和最大形状,帮助TensorRT生成适配动态输入的引擎[^2]。 #### 3. **验证ONNX模型兼容性** 在换前,使用以下方法确保ONNX模型符合TensorRT要求: - **简化模型**:使用`onnx-simplifier`优化模型结构: ```bash python -m onnxsim input_model.onnx output_model.onnx ``` 这可以消除冗余操作(如Identity节点)并合并常量[^3]。 - **检查算子支持**:通过`polygraphy`工具验证模型算子是否被TensorRT支持: ```bash polygraphy inspect model model.onnx --mode=op ``` 若存在不支持的操作(如动态切片或循环结构),需替换为等效的静态实现。 #### 4. **处理动态维度相关的常见错误** - **错误示例**:`INVALID_ARGUMENT: getPluginCreator could not find plugin ... version 1` - **原因**:动态输入导致某些层无法推导形状。 - **解决方案**:在导出ONNX模型时,显式标记动态维度: ```python # PyTorch导出ONNX示例 torch.onnx.export(model, (dummy_input,), "model.onnx", dynamic_axes={"input": {0: "batch_size"}}) ``` 换时在`trtexec`中对应指定动态轴的范围[^3]。 #### 5. **版本兼容性检查** - **TensorRTONNX版本匹配**:确保`TensorRT`版本与`onnx-graphsurgeon`、`onnxruntime`等组件兼容。例如: - TensorRT 8.x需搭配ONNX 1.9+。 - 使用`trtexec --version`和`onnx.__version__`确认版本。 #### 6. **调试与日志分析** 启用`--verbose`参数获取详细换日志: ```bash trtexec --onnx=model.onnx --verbose > log.txt 2>&1 ``` 在日志中搜索`ERROR`或`WARNING`,例如: - **动态Reshape错误**:需固定输出形状或使用`IShuffleLayer`显式定义。 - **不支持的算子**:替换为TensorRT支持的等效实现(如自定义插件)。 --- ###
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值