模型加速框架

NeMo Megatron
Triton
https://www.nvidia.cn/deep-learning-ai/solutions/large-language-models/

triton
https://github.com/triton-inference-server/server/blob/main/docs/customization_guide/build.md#building-without-docker
这个镜像我在34已经拉一个下来了
 

Triton Inference Server - 简化手册
部署流程
https://zhuanlan.zhihu.com/p/366555962

深度学习模型部署-triton

triton可以充当服务框架去部署你的深度学习模型,其他用户可以通过http或者grpc去请求,相当于你用flask搭了个服务供别人请求,当然相比flask的性能高很多了。
https://blog.csdn.net/javastart/article/details/128218977?spm=1001.2101.3001.6650.3&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EYuanLiJiHua%7EPosition-3-128218977-blog-127401816.pc_relevant_3mothn_strategy_recovery&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EYuanLiJiHua%7EPosition-3-128218977-blog-127401816.pc_relevant_3mothn_strategy_recovery&utm_relevant_index=5

使用TensorRT和Triton Inference Server加速人工智能深度学习模型推理,并优化服务器资源

Triton支持从不同的框架(TensorRT、ONNX、Pytorch、TensorFlow)中托管/部署模型,并提供标准的模型推理API,减少了工程师的维护工作。

显著优化GPU使用的两个主要特性是批量推理和并发处理。
 
如上图所示,在OCR流水线中可以同时处理不同的传入请求,其中包含三个模型(证件检测->文字检测->文字识别)。传入请求有的在证件检测模型,有的已经在文本检测或文本识别模型,这三个模型都能够在GPU上同时运行。因此,在Triton上托管多个模型时,GPU可以得到充分的利用。
https://zhuanlan.zhihu.com/p/418962517

我不会用 Triton 系列:上手指北

本文将使用 Pytorch 导出 Resnet50 模型,将其部署到 Triton。
https://www.cnblogs.com/zzk0/p/15543824.html

模型推理服务化之Triton:如何基于Triton开发自己的推理引擎?
英伟达开源框架Triton

推理:
对模型做前向推理计算。

部署:
模型部署的课题也非常多,包括但不仅限于:移植、压缩、加速等。

服务化:
模型的部署方式是多样的:封装成一个SDK,集成到APP或者服务中;封装成一个web服务,对外暴露接口(HTTP(S),RPC等协议)。

模型服务化的核心功能包括:服务框架+前向推理计算。
前者在业界有许多非常优秀的框架:Google的GRPC、百度的BRPC等,甚至可以用python的Flask和Tornado框架,对于熟悉Python的算法工程师可以说是非常方便的。
后者需要调用模型框架提供的前向推理API来实现,比如TensorFlow支持了Python、C++、JAVA和GO等多种语言。

Triton的特性主要有:
框架多样性:TensorFlow, TensorRT, PyTorch, ONNX Runtime甚至是用户自定义框架;
推理性能高:GPU并行技术、模型融合(Model Ensemble)和流式推理(Streaming Inferencing);
工程友好性:能够集成到Kubernetes 做服务编排和扩缩容,是Kubeflow中的一个组件,能够接入Prometheus监控;
https://zhuanlan.zhihu.com/p/354058294  (图)

TensorRT&Triton

TensorRT:为inference(推理)为生,是NVIDIA研发的一款针对深度学习模型在GPU上的计算,显著提高GPU上的模型推理性能。
Triton:类似于TensorFlow Serving,但Triton包括server和client。Triton serving能够实现不同模型的统一部署和服务,提供http和grpc协议,给Triton client请求模型推理。

如果是要将模型和推理嵌入在服务或软硬件中,那么TensorRT是很好的选择,使用它来加载模型进行推理,提升性能。
https://blog.csdn.net/sgyuanshi/article/details/123536579

有两个重要的目标需要考虑:最大化模型性能和构建将其部署为服务所需的基础设施。这篇文章讨论了这两个目标。

通过在三个堆栈级别上加速模型,可以从模型中挤出更好的性能:
硬件加速
软件加速
算法或网络加速。

NVIDIA GPU 是深度学习从业者在硬件加速方面的首选,其优点在业界得到广泛讨论。
关于 GPU 软件加速的讨论通常围绕库,如 cuDNN 、 NCCL 、 TensorRT 和其他 CUDA-X 库。
算法或网络加速 围绕量化和知识提取等技术的使用,这些技术本质上是对网络本身进行修改,其应用高度依赖于您的模型。

在模型加速后,下一步是构建一个服务来部署您的模型。
 

本文讨论了使用 NVIDIA TensorRT 及其 PyTorch 和 TensorFlow 的框架集成、 NVIDIA Triton 推理服务器和 NVIDIA GPU 来加速和部署模型。

NVIDIA TensorRT 是一个用于高性能深度学习推理的 SDK 。
NVIDIA Triton 推理服务器是一种开源的推理服务软件,提供单一的标准化推理平台。
 

一个端到端的推理管道,
您首先使用 TensorRT 、 Torch TensorRT 和 TensorFlow TensorRT 优化训练模型,以最大限度地提高推理性能。
然后,通过设置和查询 NVIDIA Triton 推理服务器,对服务进行建模。
https://developer.nvidia.com/zh-cn/blog/optimizing-and-serving-models-with-nvidia-tensorrt-and-nvidia-triton/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WX Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值