模型加速框架

最新推荐文章于 2024-07-29 10:53:06 发布

WX Chen

最新推荐文章于 2024-07-29 10:53:06 发布

阅读量296

点赞数

文章标签： python 开发语言

本文链接：https://blog.csdn.net/kl1411/article/details/130478920

版权

NeMo Megatron
Triton
https://www.nvidia.cn/deep-learning-ai/solutions/large-language-models/

triton
https://github.com/triton-inference-server/server/blob/main/docs/customization_guide/build.md#building-without-docker
这个镜像我在34已经拉一个下来了

Triton Inference Server - 简化手册
部署流程
https://zhuanlan.zhihu.com/p/366555962

深度学习模型部署-triton

triton可以充当服务框架去部署你的深度学习模型，其他用户可以通过http或者grpc去请求，相当于你用flask搭了个服务供别人请求，当然相比flask的性能高很多了。
https://blog.csdn.net/javastart/article/details/128218977?spm=1001.2101.3001.6650.3&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EYuanLiJiHua%7EPosition-3-128218977-blog-127401816.pc_relevant_3mothn_strategy_recovery&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EYuanLiJiHua%7EPosition-3-128218977-blog-127401816.pc_relevant_3mothn_strategy_recovery&utm_relevant_index=5

使用TensorRT和Triton Inference Server加速人工智能深度学习模型推理，并优化服务器资源

Triton支持从不同的框架（TensorRT、ONNX、Pytorch、TensorFlow）中托管/部署模型，并提供标准的模型推理API，减少了工程师的维护工作。

显著优化GPU使用的两个主要特性是批量推理和并发处理。

如上图所示，在OCR流水线中可以同时处理不同的传入请求，其中包含三个模型（证件检测->文字检测->文字识别）。传入请求有的在证件检测模型，有的已经在文本检测或文本识别模型，这三个模型都能够在GPU上同时运行。因此，在Triton上托管多个模型时，GPU可以得到充分的利用。
https://zhuanlan.zhihu.com/p/418962517

我不会用 Triton 系列：上手指北

本文将使用 Pytorch 导出 Resnet50 模型，将其部署到 Triton。
https://www.cnblogs.com/zzk0/p/15543824.html

模型推理服务化之Triton：如何基于Triton开发自己的推理引擎？
英伟达开源框架Triton

推理：
对模型做前向推理计算。

部署：
模型部署的课题也非常多，包括但不仅限于：移植、压缩、加速等。

服务化：
模型的部署方式是多样的：封装成一个SDK，集成到APP或者服务中；封装成一个web服务，对外暴露接口（HTTP(S)，RPC等协议）。

模型服务化的核心功能包括：服务框架+前向推理计算。
前者在业界有许多非常优秀的框架：Google的GRPC、百度的BRPC等，甚至可以用python的Flask和Tornado框架，对于熟悉Python的算法工程师可以说是非常方便的。
后者需要调用模型框架提供的前向推理API来实现，比如TensorFlow支持了Python、C++、JAVA和GO等多种语言。

Triton的特性主要有：
框架多样性：TensorFlow, TensorRT, PyTorch, ONNX Runtime甚至是用户自定义框架；
推理性能高：GPU并行技术、模型融合（Model Ensemble）和流式推理（Streaming Inferencing）；
工程友好性：能够集成到Kubernetes 做服务编排和扩缩容，是Kubeflow中的一个组件，能够接入Prometheus监控；
https://zhuanlan.zhihu.com/p/354058294 （图）

TensorRT&Triton

TensorRT：为inference（推理）为生，是NVIDIA研发的一款针对深度学习模型在GPU上的计算，显著提高GPU上的模型推理性能。
Triton：类似于TensorFlow Serving，但Triton包括server和client。Triton serving能够实现不同模型的统一部署和服务，提供http和grpc协议，给Triton client请求模型推理。

如果是要将模型和推理嵌入在服务或软硬件中，那么TensorRT是很好的选择，使用它来加载模型进行推理，提升性能。
https://blog.csdn.net/sgyuanshi/article/details/123536579

有两个重要的目标需要考虑：最大化模型性能和构建将其部署为服务所需的基础设施。这篇文章讨论了这两个目标。

通过在三个堆栈级别上加速模型，可以从模型中挤出更好的性能：
硬件加速
软件加速
算法或网络加速。

NVIDIA GPU 是深度学习从业者在硬件加速方面的首选，其优点在业界得到广泛讨论。
关于 GPU 软件加速的讨论通常围绕库，如 cuDNN 、 NCCL 、 TensorRT 和其他 CUDA-X 库。
算法或网络加速围绕量化和知识提取等技术的使用，这些技术本质上是对网络本身进行修改，其应用高度依赖于您的模型。

在模型加速后，下一步是构建一个服务来部署您的模型。

本文讨论了使用 NVIDIA TensorRT 及其 PyTorch 和 TensorFlow 的框架集成、 NVIDIA Triton 推理服务器和 NVIDIA GPU 来加速和部署模型。

NVIDIA TensorRT 是一个用于高性能深度学习推理的 SDK 。
NVIDIA Triton 推理服务器是一种开源的推理服务软件，提供单一的标准化推理平台。

一个端到端的推理管道，
您首先使用 TensorRT 、 Torch TensorRT 和 TensorFlow TensorRT 优化训练模型，以最大限度地提高推理性能。
然后，通过设置和查询 NVIDIA Triton 推理服务器，对服务进行建模。
https://developer.nvidia.com/zh-cn/blog/optimizing-and-serving-models-with-nvidia-tensorrt-and-nvidia-triton/