PyTorch模型在TensorRT部署小结

本文总结了PyTorch模型在TensorRT上的部署策略,包括通过ONNX和Torch-TensorRT的原始部署,以及量化、剪枝、蒸馏等压缩方法。量化分为PTQ和QAT,剪枝和蒸馏也是优化模型的有效手段,量化+剪枝能进一步提升性能。
摘要由CSDN通过智能技术生成

为了模型推理的加速,我们需要将模型在TensorRT上进行部署,这里我们讨论模型来自PyTorch的情况。部署有多种不同的方式,下面分别进行说明:

1. PyTorch“原型”部署

这里的原型指的是原始模型部署,即模型不经过压缩和优化。这种情况的部署方式主要有两种:

1.1 通过ONNX部署

图1 PyTorch--ONNX部署整体流程图

详细可以参考文档《如何将模型从 PyTorch 转换为 TensorRT 并加速推理》。

1.2 使用Torch-TensorRT部署

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值