大模型训练部署利器--开源分布式计算框架Ray原理介绍

文章详细介绍了Ray分布式计算框架的工作原理、使用方法(如remote方法和worker进程)、在Kubernetes中的应用、弹性伸缩机制以及其在机器学习中的应用。同时指出了Ray的局限性和适用场景。
摘要由CSDN通过智能技术生成

目录

Ray是什么?

如何做到分布式?

集群

remote方法

worker进程

多worker进程实现分布式

worker资源申请

如何做到弹性伸缩?

Kubernetes中的Ray

Ray使用简介

资源设置

模型组合

Ray不能做什么

参考

写在最后


本文首先介绍Ray分布式的原理,对原理有了一定认识后,具体到使用就相对简单了,因此本文只会对使用做简要介绍,最后再说一下Ray的不足。文章的目的是让大家对Ray能有基本的了解,供大家判断Ray是否适合用于解决手头的问题。

Ray是什么?

Ray是一个开源统一框架,为机器学习和大数据处理相关程序提供了用于并行处理的计算层,降低了大规模端到端机器学习工作流的开发难度。

Ray提供了在数据预处理、分布式训练、超参数调优、模型服务和强化学习几个方面的并行方法,分别对应上图的Data、Train、Tune、Serve和RLib模块,用户只需要在原有代码中新增几行代码,即可实现方法的并行操作。

同时,通过KubeRay可以将Ray程序很容易的移植到Kubernetes集群中,利用云原生生态中的基础能力对Ray任务进行更精细的管理。

如何做到分布式?

集群

Ray通常是以集群的方式部署在多台服务器上。Head node是主节点,Worker node是工作节点,上图展示了由1个Head node和2个Worker node组成的Ray集群。

remote方法

Ray任务在执行的过程中,可以根据用户在代码中的定义,判断将哪些无状态方法(Task)或者有状态类(Actor)进行分布式处理。

以方法举例,在方法上面加入一行@ray.remote装饰器,普通方法便成为了remote方法,可以被多个worker进程同时处理。并且可以指定每个worker进程所需要的资源,比如@ray.remote(num_cpus=4, num_gpus=2),指定需要worker具备4个cpu核心和2个gpu,同时可以指定小于1的资源,比如@ray.remote(num_cpus=0.5, num_gpus=0.5)。

# By adding the `@ray.remote` decorator, a regular Python function
# becomes a Ray remote function.
@ray.remote
def my_function():
    return 1

worker进程

现在介绍一下worker进程,这是帮助理解Ray工作原理的核心概念。首先要把worker进程和worker node区分开,worker node指的是服务器,而worker进程是worker node上运行的进程,一个worker node可以运行多个worker进程。

Ray v2 Architecture中如下介绍worker进程:

  1. One or more worker processes, responsible for task submission and execution. A worker process is either stateless (can be reused to execute any @ray.remote function) or an actor (can only execute methods according to its @ray.remote class). Each worker process is associated with a specific job. The default number of initial workers is equal to the number of CPUs on the machine. Each worker stores:

    1. An ownership table. System metadata for the objects to which the worker has a reference, e.g., to store ref counts and object locations.

    2. An in-process store, used to store small objects.

一个任务需要多个worker进程来执行,worker进程可以是无状态方法task或者有状态类actor,每个worker进程都属于某个任务,每个worker节点上默认的worker初始进程数等于CPU核数。每个worker进程存储着方法或者变量调用的关系和small objects。object指的是Ray中的变量,比如task的返回值或者用户自定义put的变量。

Object - An application value. These are values that are returned by a task or created through `ray.put`. Objects are immutable: they cannot be modified once created. A worker can refer to an object using an `ObjectRef`.

多worker进程实现分布式

from ray.train import ScalingConfig

scaling_config = ScalingConfig(
    num_workers=2,
    resources_per_worker={
        "CPU": 4,
        "GPU": 2,
    },
    use_gpu=True,
)

以Ray Train模型训练模块为例,代码设置了2个woker进程,每个woker设置了4个cpu和2个gpu,设置完成后,代码具体执行流程如下图所示,实现多个worker同时执行训练操作。

最后说明一下,分布式多机多卡训练得到的结果和单机单卡训练的结果肯定会有一定差异,差异在可接受的范围内就可以忽略。

worker资源申请

根据请求的资源,将Woker Node分为如下几种:

  • 可行:节点具有运行任务或参与者所需的资源。根据这些资源的当前可用性,有两种子状态:

    • 可用:节点拥有所需的资源,并且这些资源现在是免费的。

    • 不可用:节点具有所需的资源,但它们当前正被其他任务或参与者使用。

  • 不可行:节点没有所需的资源。例如,仅包含 CPU 的节点对于 GPU 任务是不可行的。

 下图介绍了一个通常的申请资源进行节点选择的过程。首先判断集群中local节点是否有足够的资源并且worker可用,如果有则进行分配,如果没有,则在remote节点进行重新选择。还涉及节点亲和性相关的概念,具体请参考Ray v2 ArchitectureScheduling — Ray 2.9.3

如何做到弹性伸缩?

相信有了前面的介绍,大家应该可以猜出Ray中弹性伸缩是如何实现的。~~思考一分钟。

from ray import serve


@serve.deployment(
    ray_actor_options={"num_cpus": 1},
    max_concurrent_queries=5,
    autoscaling_config={
        "target_num_ongoing_requests_per_replica": 1,
        "min_replicas": 0,
        "initial_replicas": 0,
        "max_replicas": 200,
    },
)

Ray是通过对worker进程数量的增减实现弹性伸缩的,弹性伸缩主要用在模型服务中,对应的是Ray Serve模块,通过4个参数对其进行控制。

  • target_num_ongoing_requests_per_replica,每个worker副本单位时间能提供的平均请求数。
  • max_concurrent_queries,每个worker副本可接受的最大请求数,该值通常设置比target_num_ongoing_requests_per_replica大 ~20-50% 。
  • min_replicas,最小worker副本。
  • max_replicas,最大worker副本。

上图是Ray Serve中弹性伸缩模块的设计图,对于每个任务,弹性伸缩程序会定期检查DeploymentHandle副本上的队列和正在进行的查询,以决定是否缩放副本数量。每个都DeploymentHandle不断轮询控制器以检查新的部署副本。每当发现新副本时,它都会向副本发送任何缓冲的或新的查询,直到max_concurrent_queries到达为止。

Kubernetes中的Ray

使用KubeRay可以很容易地在Kubernetes集群中启动关闭Ray集群、提交任务。KubeRay提供了三种CRD: RayCluster、RayJob、RayService。

  • RayCluster:KubeRay 完全管理 RayCluster 的生命周期,包括集群创建/删除、自动扩展和确保容错。
  • RayJob:通过 RayJob,KubeRay 自动创建 RayCluster,并在集群准备就绪时提交作业任务,可以将 RayJob 配置为在作业完成后自动删除 RayCluster。
  • RayService:用于部署Service服务,支持滚动升级。

在Kubernetes中的每个Ray集群包括一个Head Pod和多个Worker Pod,需要为每个Pod设置所需的cpu、gpu资源,这里的Pod等价于Ray服务器集群中的worker进程,用来实现任务的分布式处理和弹性伸缩。官方建议创建少量大资源pod优于创建多个小资源pod,因为同一个Pod可共享内部的对象存储,还可以降低pods之间的通信次数。

Ray使用简介

本节以Ray Serve简要介绍Ray的使用。

资源设置

可以用@serve.deployment()设置worker进程的数量和资源,如下:

import ray
from ray import serve
from fastapi import FastAPI

from transformers import pipeline

app = FastAPI()


@serve.deployment(num_replicas=2, ray_actor_options={"num_cpus": 0.2, "num_gpus": 0})
@serve.ingress(app)
class Translator:
    def __init__(self):
        # Load model
        self.model = pipeline("translation_en_to_fr", model="t5-small")

    @app.post("/")
    def translate(self, text: str) -> str:
        # Run inference
        model_output = self.model(text)

        # Post-process output to return only the translation text
        translation = model_output[0]["translation_text"]

        return translation


translator_app = Translator.bind()

模型组合

利用@serve.deployment可以将多个模型进行组合编排,下一个模型可以读取前一个模型的结果,如下:

# File name: hello.py
from ray import serve
from ray.serve.handle import DeploymentHandle


@serve.deployment
class LanguageClassifer:
    def __init__(
        self, spanish_responder: DeploymentHandle, french_responder: DeploymentHandle
    ):
        self.spanish_responder = spanish_responder
        self.french_responder = french_responder

    async def __call__(self, http_request):
        request = await http_request.json()
        language, name = request["language"], request["name"]

        if language == "spanish":
            response = self.spanish_responder.say_hello.remote(name)
        elif language == "french":
            response = self.french_responder.say_hello.remote(name)
        else:
            return "Please try again."

        return await response


@serve.deployment
class SpanishResponder:
    def say_hello(self, name: str):
        return f"Hola {name}"


@serve.deployment
class FrenchResponder:
    def say_hello(self, name: str):
        return f"Bonjour {name}"


spanish_responder = SpanishResponder.bind()
french_responder = FrenchResponder.bind()
language_classifier = LanguageClassifer.bind(spanish_responder, french_responder)

Ray不能做什么

Ray提供了数据预处理、分布式训练、超参数调优、模型服务多种功能,覆盖了机器学习的全流程,但是使用过程中也发现了几点不足,如下:

  • 不支持机器学习工作流,缺乏对整个端到端工作流的管理,需要依靠其他产品才能实现。
  • 管理界面不友好,在管理界面上只能进行作业的查看,无法进行代码编写、作业提交等操作。
  • Ray集群本身不支持多租户,对用户无法进行资源隔离,但是幸好KubeRay中弥补了这一不足。

以上列了Ray的一些问题,但是这并不是说Ray不好,每个产品都有其专注的点,Ray已经在其领域做到了顶尖,并且有着非常活跃的社区和详细的使用文档,推荐同学们都去尝试一下。

参考

Ray docs

Ray v2 Architecture

Ray: A Distributed Framework for Emerging AI Applications

写在最后

本文介绍了Ray的原理,欢迎大家拍砖交流。如果大家关注MLOps相关的技术,欢迎大家点赞关注👏👏👏

  • 30
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《neo4j权威指南-图数据库-大数据时代的新利器.pdf》是一本介绍Neo4j图数据库的权威指南。Neo4j是一种高性能、可扩展的图数据库,它能够处理大规模复杂数据,并提供了强大的查询和分析功能。 该书结构清晰,内容详细全面。首先介绍了图数据库的概念和基本原理,然后详细讲解了Neo4j的安装与配置。接下来,书中介绍了Neo4j图数据库的基本操作,包括数据的创建、删除、更新和查询等。 除了基本操作,该书还介绍了Neo4j的高级功能和应用场景。比如,如何构建复杂的图结构、如何优化查询性能以及如何进行数据的分析和可视化等。同时,书中也介绍了Neo4j与其他大数据工具(如Hadoop、Spark等)的集成方法。 这本书的优点在于,它不仅仅是一本理论性的指南,更注重实际应用。书中通过大量的示例和案例,让读者能够更好地理解Neo4j的用法和原理,并且能够在实际项目中灵活应用。 总而言之,该书是一本非常实用的图数据库指南,对于想要学习和应用Neo4j的人来说是一本不可或缺的参考书。无论是对于图数据库的初学者,还是对于有经验的开发者和数据分析师,这本书都能够提供很大的帮助。阅读它能够帮助读者更深入地理解和应用Neo4j图数据库,从而在大数据时代中获得新的利器。 ### 回答2: 《neo4j权威指南-图数据库-大数据时代的新利器.pdf》是一本介绍Neo4j图数据库的权威指南。Neo4j是一种基于图模型的高性能、高可伸缩性的数据库管理系统,它的出现使得处理大数据变得更加方便和高效。 这本指南首先介绍了图数据库的概念和基本知识,包括图的数据结构、节点、关系等。然后详细介绍了如何使用Neo4j进行图数据建模,包括节点和关系的创建、属性的定义、查询语言的使用等。 接着,指南介绍了Neo4j的高级功能和特性,如图算法、图遍历、索引和约束等。这些功能可以帮助用户更加灵活地处理和分析图数据,并从中获取有用的信息。 此外,指南还介绍了Neo4j在大数据时代的应用场景,包括社交网络分析、推荐系统、网络安全等。图数据库的优势在这些应用中得到了充分展示,为用户提供了更加高效和快速的数据处理方法。 总的来说,《neo4j权威指南-图数据库-大数据时代的新利器.pdf》是一本详细介绍Neo4j图数据库的权威指南,对初学者提供了宝贵的知识和实践经验,同时也为有经验的用户提供了更多高级功能和应用场景的深入探讨。无论是对于学习者还是开发者来说,这本指南都是一本不可或缺的参考书。 ### 回答3: 《Neo4j权威指南-图数据库-大数据时代的新利器》是一本介绍Neo4j图数据库的权威指南。图数据库是一种以图形的形式存储和处理数据的数据库系统,与传统的关系型数据库相比,可以更好地处理复杂的关系和连接。 本书首先介绍了图数据库的基本概念和特点,探讨了为什么图数据库在大数据时代成为新的利器。随着互联网的快速发展和数据的爆炸式增长,传统的数据库已经无法满足对数据的高效查询和分析的需求,而图数据库作为一种新型数据库技术,能够有效解决这些问题。 接着,本书详细介绍了Neo4j图数据库的特点、架构和基本操作。Neo4j是目前最流行的图数据库之一,它提供了一个高效、灵活和可扩展的图数据库解决方案。读者可以通过本书学习如何安装、配置和使用Neo4j,并掌握Cypher查询语言进行数据的查询和分析。此外,本书还介绍了图数据库的关键技术,如图算法和图分析,帮助读者充分发挥图数据库在数据挖掘和机器学习等领域的优势。 最后,本书还涵盖了Neo4j在实际应用中的案例和经验。通过实际的案例分析,读者可以了解如何使用Neo4j解决实际的业务问题,并掌握在实际项目中如何优化和调优Neo4j数据库。 总之,《Neo4j权威指南-图数据库-大数据时代的新利器》是一本全面而深入的图数据库入门指南,对于想要了解和使用图数据库的读者来说是一本非常实用的参考书。无论是数据库开发人员、数据科学家还是大数据分析师,都可以从本书中获得宝贵的知识和经验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值