torch转onnx模型加速，onnx模型推理直接达到tensorRT速度，省去onnx转tensorRT的流程

最新推荐文章于 2024-07-01 12:29:59 发布

↣life♚

最新推荐文章于 2024-07-01 12:29:59 发布

阅读量722

点赞数 13

文章标签： python pytorch 人工智能深度学习神经网络

本文链接：https://blog.csdn.net/unique_zhao/article/details/135110289

版权

完成torch转onnx后，直接基于onnx模型推理达到tensorRT速度~

最近在进行torch模型推理加速过程时，原本想的方案是torch转onnx再转tensorRT实现加速，但是在转完onnx，使用onnx模型验证推理效果时发现，可以直接通过设置onnx runtime 推理模型的provider参数，实现tensorRT的推理速度。

在未设置provider时速度很慢，我这默认应该用的是CPU。

通过以下方式修改为tensorRT引擎：

import onnxruntime as ort

onnx_model = ort.InferenceSession(landmark_gen_onnx_path, providers=['TensorrtExecutionProvider'])

我这边是直接就运行成功了，并且后面通过转完tensorRT模型后的速度验证，发现这种方式下比我自己转tensorRT模型再用tensorRT模型推理速度还快一点点。

provider 参数解释：
providers: Optional sequence of providers in order of decreasing precedence. Values can either be provider names or tuples of (provider name, options dict). If not provided, then all available providers are used with the default precedence.

可选参数为：‘TensorrtExecutionProvider’, ‘CUDAExecutionProvider’, ‘CPUExecutionProvider’，大概分别代表使用TensorRT，CUDA，CPU 执行。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

↣life♚

关注关注

13
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

TensorRT：在NVIDIA各种GPU硬件平台下运行的高性能推理C++库【Pytorch-＞ONNX-＞TensorRT】【实现神经网络提速(读取ONNX模型并运行)】【目前对ONNX的支持最好】

u013250861的博客

05-08

3273

一、什么是TensorRT TensorRT是可以在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。它旨在与TesnsorFlow、Caffe、Pytorch以及MXNet等训练框架以互补的方式进行工作，专门致力于在GPU上快速有效地进行网络推理。我们利用Pytorch、TF或者其他框架训练好的模型，可以转化为TensorRT的格式，然后利用TensorRT推理引擎去运行我们这个模型，从而提升这个模型在英伟达GPU上运行的速度。速度提升的比例是比较可观的。借官方的话来说： The cor

AI模型工业部署：综述【常用的部署框架：TensorRT、Libtorch】【常见提速方法：模型结构、剪枝、蒸馏、量化训练、稀疏化】【常见部署流程：onnx2trt】【常见服务部署搭配】

u013250861的博客

05-08

6397

作为深度学习算法工程师，训练模型和部署模型是最基本的要求，每天都在重复着这个工作，但偶尔静下心来想一想，还是有很多事情需要做的：模型的结构，因为上线业务需要，更趋向于稳定有经验的，而不是探索一些新的结构模型的加速仍然不够，还没有压榨完GPU的全部潜力一、AI部署 AI部署的基本步骤：训练一个模型，也可以是拿一个别人训练好的模型针对不同平台对生成的模型进行转换，也就是俗称的parse、convert，即前端解释器针对转化后的模型进行优化，这一步很重要，涉及到很多优化的步骤在特定的平台(嵌入

参与评论您还未登录，请先登录后发表或查看评论

ONNX-TensorRT：用于ONNX的TensorRT后端-Python开发

05-25

ONNX-TensorRT：用于ONNX的TensorRT后端用于ONNX的TensorRT后端解析ONNX模型以与TensorRT一起执行。另请参阅TensorRT文档。受支持的TensorRT版本开发Master分支上的开发适用于具有完整尺寸和动态形状支持的TensorRT 7.1的最新版本。对于TensorRT的早期版本，请参考其各自的分支。完整尺寸+动态形状在具有动态形状支持的完整尺寸模式下构建INetwork对象需要调用以下API：C ++ const auto

PyTorch：模型推理加速之onnx

皮皮blog

01-18

3583

Open Neural Network Exchange（ONNX，开放神经网络交换）格式，是一个用于表示深度学习模型的标准，可使模型在不同框架之间进行转移。ONNX是一种针对机器学习所设计的开放式的文件格式，用于存储训练好的模型。它使得不同的人工智能框架（如Pytorch, MXNet）可以采用相同格式存储模型数据并交互。ONNX的规范及代码主要由微软，亚马逊，Facebook 和 IBM 等公司共同开发，以开放源代码的方式托管在Github上。

从PyTorch导出ONNX使用TensorRT模型加速

qq_51533157的博客

03-16

1311

LInux下TensorRT加速流程

模型量化！ONNX转TensorRT(FP32, FP16, INT8)

qq_43522163的博客

07-10

6619

模型量化！ONNX转TensorRT(FP32, FP16, INT8)

使用ONNX Runtime推理引擎进行加速（Pytorch----＞Onnx----＞ONNX Runtime）

weixin_54202028的博客

08-12

4043

OpenMMLab 的算法如何部署？是很多社区用户的困惑。而模型部署工具箱 MMDeploy的开源，强势打通了从算法模型到应用程序这 "最后一公里"！中间表示 ONNX 的定义标准PyTorch 模型转换到 ONNX 模型的方法推理引擎 ONNX Runtime、TensorRT 的使用方法部署流水线 PyTorch - ONNX - ONNX Runtime/TensorRT 的示例及常见部署问题的解决方法MMDeploy C/C++ 推理 SDK。...

ONNX转TensorRT加速模型推理

TracelessLe的专栏

09-30

9347

前言 TensorRT是NVIDIA推出的一款高效深度学习模型推理框架，其包括了深度学习推理优化器和运行时，能够让深度学习推理应用拥有低时延和高吞吐的优点。本质上来讲，就是通过采用对模型中的部分算子进行融合、对特定尺寸的算子选用更好的实现方法，以及使用混合精度等方式，最终加速整个网络的推理速度。在使用PyTorch训练得到网络模型后，我们希望在模型部署时通过TensorRT加速模型推理，那么可以先将PyTorch模型转为ONNX，然后再讲ONNX转为TensorRT的engine。实现步骤 PyT

YOLOv10 | 手把手教你利用yolov10训练自己数据集（含环境搭建、参数解析、数据集查找、模型训练、推理、导出）

热门推荐

Snu77的博客

05-26

2万+

本文内含YOLOv10网络结构图 + 各个创新模块手撕结构图 + 训练教程 + 推理教程 + 参数解析 + 环境搭建 + 数据集获取等一些有关YOLOv10的内容！目录一、前言二、整体网络结构图三、空间-通道分离下采样3.1 SCDown介绍3.2 C2fUIB介绍3.3 PSA介绍四、环境搭建五、数据集获取六、模型获取七、模型训练7.1 训练的三种方式7.1.1 方式一7.1.2 方式二（推荐）7.1.3 方式三八、模型验证/测试九、模型推理十、模型输出官方论文地址点击此处即可跳转。

大模型面试题总结

谢白羽

01-24

1402

一、大模型（LLMs）基础面二、大模型（LLMs）进阶面三、大模型（LLMs）微调面四、大模型（LLMs）langchain面 1. 基于LLM+向量库的文档对话基础面 2. 基于LLM+向量库的文档对话优化面 3. LangChain的概念面试问题 4.LangChain的一些模块提问 5.LangChain的业务提问 6.LangChain的问题解决五、LoRA、QLoRA、AdaLoRA篇六、Fine tune 1）基础概念 2）为什么需要 P-tuning v2？ 3）为什么需要 P-

TensorRT工作手册

m0_62789066的博客

10-10

544

30分钟吃掉pytorch转onnx及推理

Python_Ai_Road的博客

06-08

484

pytorch模型线上部署最常见的方式是转换成onnx然后再转成tensorRT 在cuda上进行部署推理。本文介绍将pytorch模型转换成onnx模型并进行推理的方法。#!pip install onnx #!pip install onnxruntime #!pip install torchvision公众号算法美食屋后台回复关键词：源码，获取本文notebook源代码。一，准备pyto...

Onnxruntime之tensorrt加速

如果想成为中心，那么就到中心去吧。

09-14

6454

引擎将在第一次构建时被缓存，因此下次创建新的推理会话时，引擎可以直接从缓存中加载。ORT_TENSORRT_INT8_USE_NATIVE_CALIBRATION_TABLE：选择在 INT8 模式下用于非 QDQ 模型的校准表。ORT_TENSORRT_CACHE_PATH：如果 ORT_TENSORRT_ENGINE_CACHE_ENABLE 为 1，则指定 TensorRT 引擎和配置文件的路径，如果 ORT_TENSORRT_INT8_ENABLE 为 1，则指定 INT8 校准表文件的路径。

YOLOv8的5种不同部署方式推理速度对比：Pytorch、ONNX、OpenVINO-FP32、OpenVINO-int8、TensorRT

最新发布

阿旭的博客

07-01

4023

YOLOv8的5种不同部署方式推理速度对比：Pytorch、ONNX、OpenVINO-FP32、OpenVINO-int8、TensorRT

【TensorRT】ONNX/TensorRT模型转换

尊新必威的博客

09-16

4392

TensorRT 模型的推理速度比 libtorch 模型更快，所以 PyTorch 模型转换为 TensorRT 模型部署几乎是最好的选择。通常TensorRT 模型首先需要转换为 ONNX 模型，再由 ONNX 模型转换为TensorRT 模型。本文对转换方法及一些注意点做一个记录。

onnx转TensorRT使用的三种方式（最终在Python运行）

weixin_42492254的博客

07-28

1万+

onnx转TensorRT使用的三种方式（Python运行）

pytorch，onnx和tensorrt 的速度对比

ltochange的博客

09-23

1万+

onnx Open Neural Network Exchange (ONNX）是微软和Facebook携手开发的开放式神经网络交换工具。为人工智能模型(包括深度学习和传统ML)提供了一种开源格式。它定义了一个可扩展的计算图模型，以及内置运算符和标准数据类型。目前主要关注推断所需的功能。 ONNX之于机器学习模型就像JPEG之于图像或MPEG之于视频。你可以使用pytorch，tensorflow或者其他深度学习的框架来训练你的模型，最后都可以转成onnx模型. ONNX就想是不同模型之间的桥梁 ONNX

pytorch 38 对tensorRT、openvino、onnxruntime（fp32、fp16）推理速度进行对比

a486259的博客

04-17

4050

tensorRT与openvino部署模型有必要么？本博文对tensorRT、openvino、onnxruntime推理速度进行对比，分别在vgg16、resnet50、efficientnet_b1和cspdarknet53四个模型进行进行实验，对于openvino和onnxruntime还进行了cpu下的推理对比。对比囊括了fp32、fp16两种情况。在float32下通过实验得出：openvino GPU < onnxruntime CPU

一行代码加速Pytorch推理速度6倍

专注于人工智能领域的小何尚

04-12

1462

PyTorch 有一个名为 PyTorch Hub 的模型存储库，它是常见模型的高质量实现的来源。我们可以从那里获得在 ImageNet 上预训练的 ResNet-50 模型。在本教程中，我们介绍了使用 Torch-TensorRT 为 ResNet-50 模型编译 TorchScript 模型的完整过程，并测试了优化对性能的影响。使用 Torch-TensorRT，我们在 NVIDIA V100 GPU 上观察到 FP32 的加速为1.42x，FP16 的加速为5.4x。

Pth到Onnx模型转换结果比较与验证

`torch`和`torchvision`用于处理PyTorch模型，`onnxruntime`则用于ONNX模型的推理。 `pth_to_onnx`函数用于将预训练的PyTorch模型转换为ONNX模型。这里加载了一个预训练的ResNet18模型，使用`load_state_dict`加载....