赋能人工智能：Ray on vSphere 开源插件的发布-CSDN博客

本文链接：https://blog.csdn.net/qq_42906753/article/details/132475687

去年，机器学习和人工智能领域取得了爆炸性的进展。像 ChatGPT 这样的高质量生成式人工智能解决方案引起了公众的兴趣，并已延伸到商业领域。组织和个人都在考虑如何利用这项技术来加快影响力并取悦客户。

虽然这些通用模型非常出色，但在特定行业的使用案例中往往不够完美。公开可用的训练数据无法为模型提供解决每个企业特有用例所需的专业知识。为了满足这些需求，许多组织正在投资调优和训练自己的模型。为此，他们需要扩展他们的计算空间，使其超出工程师的笔记本电脑或现有的构建工具。数据科学家和机器学习工程师需要可帮助他们扩展工作负载的工具，使其可以操控访问与之匹配的计算资源。

为了应对这些挑战，我们高兴的宣布：VMware 与 Ray 的创建者 Anyscale 建立合作伙伴关系。Ray 是一个针对机器学习工作负载进行了优化的分布式 Python 工作负载调度器，为训练和推理工作负载带来了无服务器式的扩展能力。在并行处理和分布式计算方面，Ray 具有广泛的应用和出色的性能。

Anyscale 和 VMware 合作创建了一个开源插件，用于使用虚拟机在 vSphere 上运行 Ray。该插件使系统管理员能够为数据科学团队提供满足其需求的计算基础架构。当数据科学团队能够使用计算来运行支持其数据探索、清理和模型实验的工作负载时，企业就能缩短从原始数据到得到调优后差异化模型所需的时间，从而促进目标业务成果的实现。这过程如同 DevOps，但这次的目标是将工作模型交付到生产中。

它是如何工作的？

Ray 集群包含一个头部节点和工作节点。

在这里插入图片描述

头部节点负责管理集群，并调整集群内工作节点的数量。这些分布式工作节点负责训练、微调和提供模型。

要开始工作，头部节点的 Autoscaler 需要了解它能提供多大的群集以及在哪里提供，这需要一个群集配置文件。

为了实现这一点，我们的插件扩展了 Ray Autoscaler，使其能够直接与 vSphere 上的虚拟机协同工作。

在这里插入图片描述

为了协调 Ray 工作负载，Ray Autoscaler 插件会调用 vSphere 群集。vSphere 群集是一组主机，其中主机的资源成为群集资源的一部分。群集管理其中所有主机的资源。群集支持 vSphere High Availability (HA) 和 vSphere Distributed Resource Scheduler (DRS)。这些功能可确保 Ray 群集具有容错性，与其他关键任务工作负载隔离，并以最佳方式分配计算资源。

配置 vSphere Provider

下图显示了与 vSphere 一起使用的 Ray 群集配置文件示例。在提供程序部分，我们必须将类型指定为 vSphere，并指定 vSphere 群集的凭据和部署 Ray 群集的数据存储。

在这里插入图片描述