TensorRT笔记(14)部署TensorRT优化模型

本文介绍了如何部署使用TensorRT优化的模型,包括云端和嵌入式系统的部署策略。在云端,模型通常通过HTTP REST或gRPC端点实现推理,而嵌入式系统上的部署则需要使用TensorRT C++ API创建和优化计划文件,确保在目标系统上正确优化。文中还提到了INT8校准缓存的使用以及在不同环境中的应用示例。
摘要由CSDN通过智能技术生成

13.部署TensorRT优化模型

创建包含优化推理模型的计划文件后,可以将该文件部署到生产环境中。如何创建和部署计划文件将取决于您的环境。例如,您可能对模型具有专用的推理可执行文件,该可执行文件可加载计划文件,然后使用NVIDIA®TensorRT™Execution API将输入传递给模型,执行模型以进行推理,最后读取模型的输出。
本节讨论如何在某些常见的部署环境中部署TensorRT。

13.1 云端部署

一种常见的用于推理的云部署策略是通过服务器实现模型,该服务器为模型实现HTTP REST或gRPC端点。然后,远程客户端可以通过向该端点发送格式正确的请求来执行推理。该请求将选择一个模型,提供该模型所需的必要输入张量值,并指出应计算哪些模型输出。
要在此部署策略中利用TensorRT优化的模型,不需要进行任何根本性的更改。必须更新推理服务器以接受由TensorRT计划文件表示的模型,并且必须使用TensorRT执行API加载和执行那些计划。可以在《 NVIDIA Triton推理服务器容器发行说明》《 NVIDIA Triton推理服务器指南》中找到为推理提供REST端点的推理服务器示例。

13.2 部署到嵌入式系统

TensorRT还可以用于将经过训练的网络部署到NVIDIA

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yhwang-hub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值