tensorRT trtexec命令常用参数

构建阶段

--onnx=./model.onnx # 指定onnx模型文件名
--minShapes=input0:1x3x224x224 # 指定动态输入形状的范围最小值
--optShapes=input0:8x3x224x224 # 指定动态输入形状的范围常见值
--maxShapes=input0:16x3x224x224 # 指定动态输入形状的范围最大值
--inputIOFormats=fp16:chw # 指定模型输入精度与数据排布格式,不指定默认fp32:chw
--outputIOFormats=fp16:chw # 指定模型输输出精度与数据排布格式,不指定默认fp32:chw
--memPoolSize=1024 # 优化过程中可使用显存最大值
--fp16 # 使能fp16精度
--int8 # 使能int8精度
--calib=xxx # 指定int8校准缓存文件
--noTF32 # 禁用TF32精度
--best # 使能所有精度寻找最佳性能
--sparsitu # 稀疏性等属性
--saveEngine=./model.engine # 指定输出引擎文件名
--buildOnly # 只构建引擎,不运行
--verbose # 打印详细信息
--tacticSources=-CUDNN,+CUBLAS # 指定构建所启用的库,比如示例中表示使用CUBLAS不使用CUDNN
--timingCacheFile=timeing.cache # 指定输出优化计时缓冲文件名
--profilingVerbosity=detailed # 构建期间保留更多逐层信息

运行阶段

--loadEngine=./model.engine # 读取engine文件
--shapes=input0:0:1x3x224x224    # 指定输入张量形状
--loadInputs=intput0:input0.binary # 指定特定的input
--warmUp=1000 # 热身阶段最短运行时间(单位:ms)
--duration=10 # 测试阶段最短运行时间(单位:s)
--iterations=100 # 指定测试阶段运行的最新迭代次数
--sleepTime=10 # 延迟执行(单位:ms)
--useCudaGraph # 使用CUDAGraph来捕获和执行推理过程
--noDataTransfers # 关闭Host与Device之间的数据传输
--streams=2 # 使用多个stream运行推理
--dumpProfile # 输出每一层的profile信息到终端
--dumpLayerInfer # 输出engine的层信息到终端
--dumpOutput # 输出最后一次推理的输出结果到终端
--exportProfile=layerProfile.json # 每一层的profile信息保存成json文件
--exportLayerInfo=layerInfo.json # engine的层信息保存成json文件
--exportOutput=output.json # 最后一次推理的输出结果保存成json文件
--device=N # 选择执行的GPU
--plugins=xxx.so # 加载插件库

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

洪流之源

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值