使用 TensorRT 进行推理的系统讲解

最新推荐文章于 2024-09-13 16:27:15 发布

yzZ_here

最新推荐文章于 2024-09-13 16:27:15 发布

阅读量336

点赞数 4

分类专栏：基于tensorrt的yolov5推理实现文章标签：算法 ubuntu python yolov5 tensorrt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39333636/article/details/141203043

版权

基于tensorrt的yolov5推理实现专栏收录该内容

8 篇文章 2 订阅

订阅专栏

使用 TensorRT 进行推理需要几个主要步骤，从创建 Runtime 到最终的推理。这些步骤包括：

创建 Runtime
反序列化引擎
创建 Execution Context
分配内存
图像前处理
执行推理
结果后处理

以下是对每一步的详细解释：

1. 创建 Runtime

目的

nvinfer1::IRuntime 是 TensorRT 进行推理的核心组件。创建 Runtime 的目的是提供一个上下文环境来管理推理引擎和执行上下文。

实现

nvinfer1::IRuntime* runtime = nvinfer1::createInferRuntime(gLogger);

注意事项

确保 gLogger 被正确初始化，gLogger 是 TensorRT 提供的日志记录器，用于记录和调试信息。
需要在程序结束时销毁 runtime 以释放资源。

2. 反序列化引擎

目的

引擎是经过优化的推理模型。反序列化引擎的目的是将二进制格式的引擎文件加载到内存中，以便执行推理。

实现

std::ifstream engine_file(engine_file_path, std::ios::binary); engine_file.seekg(0, std::ifstream::end); size_t fsize = engine_file.tellg(); engine_file.seekg(0, std::ifstream::beg); std::vector<char> engine_data(fsize); engine_file.read(engine_data.data(), fsize); nvinfer1::ICudaEngine* engine = runtime->deserializeCudaEngine(engine_data.data(), fsize, nullptr);

注意事项

确保引擎文件存在且可读。
deserializeCudaEngine 函数将引擎文件内容反序列化为可用的推理引擎对象。

3. 创建 Execution Context

目的

Execution Context 是引擎在推理过程中实际使用的上下文。它负责管理推理过程中所有的操作，包括内存分配和内核执行。

实现

nvinfer1::IExecutionContext* context = engine->createExecutionContext();

注意事项

每个 Execution Context 对象只能用于一个线程中。
需要在程序结束时销毁 context 以释放资源。

4. 分配内存

目的

为模型的输入和输出分配 GPU 内存，以便在推理过程中进行数据传输和计算。

实现

void* buffers[2]; cudaMalloc(&buffers[0], input_size * sizeof(float)); // 输入 cudaMalloc(&buffers[1], output_size * sizeof(float)); // 输出 cudaStream_t stream; cudaStreamCreate(&stream);

注意事项

确保分配的内存大小和输入输出的大小匹配。
在程序结束时需要释放分配的 GPU 内存。

5. 图像前处理

目的

将输入图像转换为模型所需的格式，并将其传输到 GPU 内存中。

实现

注意事项

确保输入图像大小和模型要求的输入大小一致。
使用 CUDA 异步内存复制函数 cudaMemcpyAsync，可以提升性能。

6. 执行推理

目的

使用 Execution Context 执行推理，得到模型的输出结果。

实现

context->enqueueV2(buffers, stream, nullptr);

注意事项

enqueueV2 是异步执行，需要使用 CUDA 流来管理同步。

7. 结果后处理

目的

将 GPU 内存中的推理结果传回主机内存，并进行后处理以得到最终的输出结果。

实现

注意事项

确保内存复制和流同步，以确保结果数据的完整性。

示例代码汇总

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yzZ_here CSDN认证博客专家 CSDN认证企业博客

码龄7年

47: 原创

39万+: 周排名

3万+: 总排名

12万+: 访问

: 等级

844: 积分

205: 粉丝

293: 获赞

62: 评论

861: 收藏

私信

关注

热门文章

分类专栏

基于tensorrt的yolov5推理实现 8篇

最新评论

解决Ubuntu20.04远程时必须连接显示器
@Sean_: 亲测有效!
windows平台使用tensorRT部署yolov5详细介绍，整个流程思路以及细节。
yzZ_here: 最近又在看部署相关的东西，我突然想到一些内容和你分享一下，你大致提到的是在我提供的代码中，你替换了模型的trt文件，发现推理失败（如果没记错的话）。我在思路上是这么理解的：tensorRT的加速逻辑是固定不变，可以理解为他不管你进来的哪个模型的engine文件，它只需要1.创建runtime ->2.加载engine文件并反序列化 ->3.创建context->4.分配内存->5.preprocessImage->6.inference->7.图像后处理。这七步中，极端点的话可以理解为前六步都是固定的，只有第七步是需要针对自己的模型或者场景做特殊处理。所以你说的认为可能是由于咱俩的模型的输出不同，导致后处理阶段报错，可能我的代码中后处理只针对我自己的模型。这一点思路供你参考，也期待我们接着交流一波。
MedSegDiff： Medical Image Segmentation with Diffusion Probabilistic Model
正在学习ros的小趴菜: 您好我想问问这个是怎么进行测试的呢
windows平台使用tensorRT部署yolov5详细介绍，整个流程思路以及细节。
小凃老师: 大佬，我在Windows上运行demo文件报错，具体报错信息我提到issue上去了，https://github.com/stu-yzZ/yolov5infer/issues/1#issue-2376556988
Transformer中的多头注意力机制-为什么需要多头？
yzZ_here: 还请指教

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。