议题介绍｜KCD 2023 杭州站「AI 基础设施论坛」

最新推荐文章于 2025-06-14 22:44:09 发布

SOFAStack

最新推荐文章于 2025-06-14 22:44:09 发布

阅读量271

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/SOFAStack/article/details/133874669

版权

KCD 2023

活动介绍

HANGZHOU

关于 KCD

Kubernetes Community Days（KCD）由云原生计算基金会（CNCF）发起，由全球各国当地的 CNCF 大使、CNCF 员工以及 CNCF 会员单位联合组织。目前 KCD 正在全球各个国家活跃地组织进行中，KCD 聚集了来自云原生领域开源社区的最终用户、贡献者和技术专家，这一系列的活动有助于提高 Kubernetes 社区的活跃度并完善其发展潜力，使更多用户能接触到云原生信息，也推动云原生技术在不同行业中更广泛的传播。

KCD 杭州

杭州是中国东南沿海中心城市之一、浙江省省会。美丽的西湖成就了“上有天堂，下有苏杭”的千古美誉。而今天，这张名片，似乎已经被“电商之都”所取代。杭州凭借着互联网电商经济成为了炙手可热的新一线城市，同时也吸引了很多大型互联网公司，并且具有浓厚的技术氛围。

本次也是 Kubernetes Community Days 首次来到杭州，由 CNCF、蚂蚁开源、龙蜥社区、Dragonfly 社区、Harbor 社区联合发起。希望能够在这座充满活力的城市进一步推广云原生相关技术。

KCD 杭州站主页：https://community.cncf.io/e/myjve4/

KCD 2023

活动报名中

HANGZHOU

欢迎扫码报名直达现场！

也可点击底部“阅读原文”进入报名通道哦✈️

KCD 2023 杭州站将在 10 月 21 日 14:00 同时举办云原生供应链论坛与 AI 基础设施论坛，今天我们带来「AI 基础设施论坛」议题介绍，感兴趣的同学继续往下看⬇️⬇️⬇️

KCD 2023

AI 基础设施论坛议题介绍

HANGZHOU

议题一

Dragonfly & Nydus 在 AI 场景下数据分发实践

时间

14:00-14:30

演讲人

戚文博

Dragonfly Maintainer

议题简介

Dragonfly 基于 P2P 技术提供高效、稳定和安全的文件分发和镜像加速，旨在成为云原生架构中的最佳实践和标准解决方案。自 17 年开源以来，Dragonfly 被许多大规模互联网公司选用并投入生产使用，并在 18 年 10 月正式成为 CNCF Sandbox 项目。2020 年 4 月成为 CNCF Incubating 项目。在本次演讲中，将简要介绍 Dragonfly，并介绍最新版本的特性，重点介绍在 AI 模型分发场景下使用 Dragonfly 和 Nydus 的最佳实践。

听众收获

1. 了解 Dragonfly 与 Nydus 在 AI 数据分发场景的应用与挑战
2. 提升对 P2P 技术，包括镜像加速、文件分发内容的了解

议题二

KubeBlocks：轻松管理 AIGC 数据基础设施

时间

14:30-15:00

演讲人

郭子昂

KubeBlocks Maintainer

议题简介

AI 作为当前最热门的话题之一，吸引了越来越多的企业加入这一领域，探索利用 AI 和 AIGC 提升效率的方法。这一趋势同时催生了向量数据库的发展，作为有状态的数据库产品，管理向量数据库是复杂的，在生产环境使用时，面临着跟传统的 OLTP 和 OLAP 数据库一样的问题。此外，针对大模型本身，业界不断推出新的语言模型（LLM），维护 LLM 和 AIGC 的基础设施相对复杂。加上 LLM 本身不能直接提供服务，需要借助 LLMOps 来进行支持。就像 Kubernetes 应用程序的运行需要 DevOps 的支持一样，LLM 需要在 LLMOps 的支持下才能运行。针对目前的阻碍，KubeBlocks 结合自身向量数据库托管能力和 LLMOps 能力，提出 AIGC 领域基础设施解决方案，以应对 LLM 和 AIGC 的需求，帮助用户实现私有化部署。

听众收获

1. 了解 AIGC 及 LLM 领域面临的挑战
2. 了解 LLMOps 是什么
3. 了解已落地的私有化大模型部署解决方案架构与具体实践
4. 通过 KubeBlocks 的部署经验，避开 LLMOps for AIGC 部署常见问题

议题三

云原生 AI 的新视角：利用 BentoML 与开源云原生技术突破 Serverless 挑战

时间

15:00-15:30

演讲人

董天欣

BentoML 资深工程师

KubeVela 核心维护者

议题简介

AI 和 Serverless 正在重塑我们的工作方式，但这两者的交汇点却充满了挑战，尤其在模型的部署和管理方面。在 Serverless 环境中高效、稳健地运行和维护 AI 模型的挑战并不单一，它包括但不限于应对不同的实例类型、GPU 类别、内存大小的需求，根据使用情况为每个模型进行独立的扩展以及处理突发和空闲可扩展性等问题，以确保实时和批量机器学习推理的可靠性。在本次演讲中，我们将深入探讨这些挑战，并探索如何利用 BentoML 和其他开源云原生项目如 KEDA，和 MinIO 等构建一个强大的云平台。这个平台可以适应各种规模的需求，并且完全掌控其运行环境，避免了对特定云服务提供商的依赖。同时，我们将展示如何在此平台上实际部署开源模型的整个过程，帮助你更深入地理解云原生环境下的 AI 应用部署，开启你的云原生 AI 实践之旅。

听众收获

1. 探索如何利用 BentoML, Yatai 以及开源模型如 OpenLLM 和 OneDiffusion 部署和管理 AI 模型的先进方法

2. 深入了解 Serverless 在 AI 基础架构中的应用和挑战
3. 理解如何利用云原生技术提高模型的生产效率和效益
4. 获得实例操作经验，学习如何实现高效、稳健和灵活的 AI 工作负载管理
5. 学习如何平滑地将 AI 模型从开发阶段过渡到生产阶段

议题四

喧嚣之外：云原生大模型推理实践的工程化挑战和应对

时间

15:45-16:15

演讲人

车漾

Fluid 社区联合创始人、Maintainer

议题简介

人工智能生成内容（AIGC）和大型语言模型（LLM）在近一年内方兴未艾，进一步提升了大众对生成式模型的期望值。然而，正如 Gartner 报告中所提到的：“启动 AI 应用程序试点项目看起来轻而易举，但将它们部署到生产环境中则极具挑战性”。AIGC 模型推理服务相比于传统的模型，在云上的工程化落地存在许多挑战，包括如何应对模型复杂的架构和规模，计算资源需求，弹性扩缩容和模型更新等问题。而模型从存储加载到 GPU 的性能制约了弹性伸缩和模型频繁升级等核心场景。在本次分享中将介绍在 Fluid 项目作为云原生 AI 场景下的数据和任务编排框架，在 AIGC 模型推理工程化落地方面做了许多优化探索的工作，包括简化云原生AI场景的缓存管理和运维，降低资源成本；以及优化推理服务读取模型数据的效率，加速模型加载过程。我们也会演示如何通过 Fluid 将一个 LLM 模型的推理加载速度提升近 7 倍，同时提供缓存弹性的能力，避免资源浪费。

听众收获

1. 理解 AIGC 模型推理服务在云原生工程化落地中的挑战
2. 对 Fluid 项目的了解，包括其背景、目标和优化方法，以及解决缓存管理、资源成本降低和模型加载效率的具体策略
3. 学习解决云上 AIGC 模型推理服务挑战的实际方法，可以应用在类似场景和问题，并且通过演示了解实际效果
4. 探讨未来展望和可能的改进方向

议题五

基于 eBPF 采集的排障北极星指标构建故障根因推导流程

时间

16:15-16:45

演讲人

苌程

Kindling 开源项目创始人

议题简介

Kindling 开源社区的核心功能是 trace-profiling，它用于收集一次用户请求的内核各种指标数据。在 8 月份龙蜥社区 Meetup 中，Kindling 社区与龙蜥社区合作发布了一组名为"排障北极星指标"的新理论。这套理论的目的是为用户提供一种标准化的流程，以帮助他们排查系统故障。排障北极星指标的理论目标是指导标准化流程排障，然而，这可能需要涉及一些深入的内核知识，因此能够完全理解和有效使用这些指标的用户可能相对较少。基于此，Kindling 的商业版本构建了一个故障根因推导的产品。这个产品的目标是自动化地根据排障北极星指标数据推断故障的根本原因。这将有助于减轻用户在排查故障时需要具备高级内核知识的负担，从而使更多的用户能够有效地使用这些标准化的故障排查工具。总的来说，Kindling 开源社区通过 trace-profiling 和排障北极星指标以及相关的故障根因推导产品，致力于提供更简化、标准化的方法来排查系统故障，从而帮助更多的用户成功解决用户排障难的问题。

听众收获

1. 加深对云原生环境标准化排障北极星指标体系的理解

2. 加深对一些内核指标的理解，比如什么是 run queue latency，从而更好理解云原生环境的各种指标

议题六

DLRover：K8s 上大模型训练弹性容错与自动优化

时间

16:45-17:15

演讲人