Triton全方位指南---从安装到上线(一)安装部署
简介:
NVIDIA开源的商用级别的后端算法服务框架
Triton Inference Server是一款开源的推理服务框架,它的核心库基于C++编写的,旨在在生产环境中提供快速且可扩展的AI推理能力,具有以下优势
- 支持多种深度学习框架:包括PyTorch,Tensorflow,TensorRT,ONNX,OpenVINO等产出的模型文件
- 至此多种机器学习框架:支持对树模型的部署,包括XGBoost,LightGBM等
- 支持多种协议:支持HTTP,GRPC协议
- 服务端支持模型前后处理:提供后端API,支持将数据的前处理和模型推理的后处理在服务端实现
- 支持模型并发推理:支持多个模型或者同一模型的多个实例在同一系统上并行执行
- 支持动态批处理(Dynamic batching):支持将一个或多个推理请求合并成一个批次,以最大化吞吐量
- 支持多模型的集成流水线:支持将多个模型进行连接组合,将其视作一个整体进行调度管理
- 支持模型热加载:可以通过API查看所有运行中模型的状态,还可以通过API不影响其他模型的情况下卸载和装载模型。
环境部署流程
1、检查版本对应,驱动要求
在安装一切环境之前,一定要先清楚所需的环境的版本要求,包括显卡和CUDA的对应,系统的版本,python的版本等等。triton各版本驱动要求信息和包含库信息
2、安装docker拉取镜像:
直接从官方拉取Triton省去了很多麻烦,轻松便捷,因此本文基于这种方式。如果之后需要自定义后端或者开发新的功能,可以深入了解下手动编译的方式。
下面是Ubuntu的安装示例,其他示例可见docker官方安装教程 。
更新apt-get
# Add Docker's official GPG key:
sudo apt-get update
sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc
# Add the repository to Apt sources:
echo \
"deb [arch=