AI模型推理
文章平均质量分 69
chenxy02
AI+云计算
展开
-
AI模型推理(6)——实战篇(进阶)
Triton是Nvidia官方推出的推理服务化框架(简单解释就是 加载你的模型变成别人可以请求的服务)。一开始叫 TensorRT serving,是专门针对TensorRT设计的服务器框架,后来支持了onnxruntime、pytorch、tensorflow等推理后端,变为了triton。原创 2023-12-01 18:21:27 · 217 阅读 · 0 评论 -
AI模型推理(5)——实战篇(基础)
本文主要通过实战的方式,记录各种模型推理的方法。原创 2023-11-28 22:43:37 · 331 阅读 · 0 评论 -
AI模型推理(4)—— 认识ServingRuntime
ServingRuntime(在中文语境里,笔者经常把它叫做“推理运行时”)是KServe的一个核心概念。本文主要讲解ServingRuntime的概念,并重点介绍Triton模型服务化框架。1、图中C API部分。可以看到Triton支持HTTP/REST和GRPC协议。2、中Model Repository部分。按照Triton的官方文档所述,模型仓库可以是本地的持久化存储介质(磁盘),也可以接入Google Cloud Platform或者AWS S3的模型仓库。原创 2023-05-11 20:50:08 · 688 阅读 · 1 评论 -
AI模型推理(3)——ModelMesh使用
Kserve提供了“Serverless”和“ModelMesh”两种安装模式。其中Serverless是通过Knative组件实现动态扩缩容等功能。而ModelMesh则是另一种资源开销较小的模式。原创 2023-05-02 16:56:42 · 1134 阅读 · 0 评论 -
AI模型推理(2)—— Kserve入门使用
Kserve 提供一个Kubernetes 自定义资源定义(InferenceService),用于在任意框架上提供机器学习模型服务。它旨在通过为常见的ML框架(如:Tensorflow、XGBoost、Scikit-Learn、PyTorch和ONNX)提供高性能、高度抽象的接口来解决生产上的模型推理场景。它封装了自动缩放、网络、健康检查和服务配置的复杂性,为 ML 部署带来了尖端的服务功能,如:GPU 自动缩放、归零缩放和金丝雀发布等。原创 2023-05-02 01:26:05 · 747 阅读 · 0 评论 -
AI模型推理(1)——入门篇
本文主要介绍AI模型推理的相关基础概念,为后续云原生模型推理服务的学习做准备。原创 2023-04-30 09:02:46 · 2900 阅读 · 0 评论