使用 Kubernetes 部署机器学习模型的优势

机器学习数据科学家努力构建模型,用于解决业务问题。然而,在部署模型时,会遇到一些挑战,例如如何扩展模型、模型如何与应用程序内部或外部的不同服务交互、如何实现重复操作等。为了克服这些问题,Kubernetes 是最合适的。

在这篇博客中,我将帮助您了解 Kubernetes 的基础知识、它对部署机器学习 (ML) 模型的好处,以及如何使用 Azure Kubernetes 服务实际进行部署。

Kubernetes 是什么,为什么团队喜欢它

Kubernetes,通常缩写为 K8S,是一个用于管理容器化工作负载和服务的开源平台,由 Google 于 2014 年开源。主要用于大规模运行生产工作负载。

image.png

Kubernetes 集群包含运行容器化应用程序的工作节点。 这些工作节点是一组机器。 这些应用程序是 Pod 的一部分(代表正在运行的容器集)。 每个集群必须至少有一个工作节点。 控制平面管理集群中的工作节点和 Pod。 控制平面由不同的组件组成,即:

a. API Server:暴露 Kubernetes API。 kube-apiserver 可以通过部署更多实例来水平扩展。

b. Scheduler:控制平面使用调度器来分配新创建的没有分配节点的 Pod,并选择一个节点供它们运行。

c. Controller-Manager:控制平面使用控制器管理器运行不同的控制器进程,例如:节点、作业、endpoints、服务帐户和token控制器。

d. etcd:存储 Kubernetes 集群配置和状态数据,例如: Pod 数量、状态、命名空间等。它还存储 Kubernetes API 对象和服务发现详细信息。

这些服务通常相互协同工作,并且需要满足可扩展性和云安全方面的需求。 本文概述了 Kubernetes 中的所有组件。

Kubernetes 的优势

以下是 Kubernetes 在部署 ML 或深度学习模型时提供的优势。

image.png

  • Scaling:在 MLOPS 中,模型重新训练是该过程的一个组成部分。 这需要 GPU 支持来加速训练和验证。 由于 GPU 训练的成本很高,因此 Kubernetes 提供了在模型进入再训练阶段时扩展集群以包含 GPU 的功能,并在训练完成后停用。 因此,我们可以使用 Kubernetes 根据工作负载自动进行集群扩展。
  • 微服务:生产中的企业应用程序是用不同语言和独特框架编写的多个组件的混合体。 每种语言使用 API 调用和身份验证令牌在其他服务之间进行通信。 Kubernetes 保护这些通信的安全,使服务之间能够顺利运行,并处理负载平衡和故障管理。

大多数机器学习项目都是用 Python 或 R 等编程语言编写的,应用程序也可以用其他编程语言编写,以实现数据交换、安全性和可视化。 基于容器的解决方案微服务在这种情况下发挥着关键作用,因为开发人员可以独立运行不同的实验。

  • 可移植性:基于容器的架构的基本支柱是一次编写、复制并随处运行。 容器允许我们在生产中采用经过测试的模型,而无需更改测试环境的配置。
  • 可重复性:机器学习和深度学习模型包含高度重复的操作。 在这种场景下,Kubernetes 将完全控制数据集、库和模型等所有资源。
  • 流水线:机器学习流水线可以执行各种操作,例如:数据验证、数据预处理、模型训练、模型验证和按顺序提供服务。

image.png

如何监控 Kubernetes 基础设施

基于 AI 的系统本质上是非常动态的,因此监控包含 AI 模型的 Kubernetes 至关重要。 这将有助于了解 K8S 集群的规模、性能、响应时间和指定重新训练策略。 Prometheus 是一个 Kubernetes 监控工具。 它推出了自己的查询语言工具(PromQL)

Prometheus 服务部署在 Kubernetes 环境中,并将其指标拉入数据库。 这些使用 HTTP 协议发布的指标是人类可读的,并且可以通过 API 调用轻松访问。 Prometheus 还提供 PromQL 查询结果的可视化。如果需要丰富的附加功能,我们可以使用 Grafana。 当违反预定义的性能阈值时,Prometheus 还会提供实时警报。

如何使用 Kubernetes 部署机器学习模型

几乎所有云提供商(例如:AWS、GCP 和 AZURE)都提供 Kubernetes 作为服务。 大多数公司都利用这些云服务。 因此建议使用他们的 Kubernetes 服务。 在本博客中,我将解释使用 Azure Kubernetes 服务部署 ML 模型的三种方法。

A. Azure ML 工作区:Azure ML 服务使用步骤如下,无论您在何处部署模型,它都是类似的:

image.png

  1. 注册模型。
  2. 准备一个入口脚本。
  3. 准备推理配置。
  4. 在本地部署模型以确保一切正常。
  5. 选择一个计算目标。
  6. 将模型部署到云端。
  7. 测试生成的 Web 服务。

在步骤 5 中,我们将使用 AKSCompute(Azure Kubernetes 计算服务)进行推理。

B. 将 Docker 镜像部署到独立的 Azure Kubernetes 服务

image.png

具体步骤如下:

  1. 为您的 ML 模型构建 Docker 镜像。
  2. 将 docker 镜像推送到 Azure 容器注册表。
  3. 创建 Azure Kubernetes 服务。
  4. 编写一个deployment.yaml、service.yaml文件。
  5. 对这些 Yaml 文件运行 Kubernetes 以创建 Pod。

Azure Kubernetes 服务会注意如果 Pod 被删除或利用率很高,它将创建另一个 pod。 因此,总会有实现高可用性、可扩展性的机会。

C. 使用 Kubeflow 进行端到端 ML 生命周期

Kubeflow 是在 Kubernetes 上管理完整机器学习生命周期的最流行方法之一。 具体操作步骤如下所示:

  1. 将 ML 模型打包到容器中并发布到 Azure 容器注册表 (ACR)。
  2. 使用 Azure Blob 存储托管训练数据集和训练模型。
  3. 使用 Kubeflow 将训练作业部署到 Azure Kubernetes Services (AKS); AKS 的分布式训练作业包括参数服务器和工作节点。
  4. 使用 Kubeflow 提供生产模型,促进跨测试和生产的一致环境。
  5. AKS 支持启用 GPU 的 VM。
  6. 开发人员构建功能来查询 AKS 集群中运行的模型。

尽管我给出了一些使用 Kubernetes 部署 ML 模型的不同方法,但人们可以根据自己的要求使用任何方法将模型部署到 Kubernetes。

总结

本文帮助您熟悉 Kubernetes 及其与模型的集成。 ML 模型需要并行运行许多不同的实验。 当每次资源需求发生变化时,Kubernetes 都是最佳实践,它将有助于资源管理、监控、作业调度等。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取==🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值