取代Python多进程！高性能分布式执行框架 - Berkeley Ray

最新推荐文章于 2023-03-26 20:23:30 发布

Charmve

最新推荐文章于 2023-03-26 20:23:30 发布

阅读量1.4k

点赞数 11

分类专栏：深度学习前沿动态 | NLP & CV 迈微PaperWeeklyAI 【硬件加速+模型压缩+边缘计算】研究文章标签：分布式大数据算法 python Ray

本文链接：https://blog.csdn.net/Charmve/article/details/107890570

版权

【硬件加速+模型压缩+边缘计算】研究同时被 3 个专栏收录

19 篇文章 49 订阅 ¥39.90 ¥99.00

订阅专栏

深度学习前沿动态 | NLP & CV

72 篇文章 11 订阅

订阅专栏

迈微PaperWeeklyAI

41 篇文章 3 订阅

订阅专栏

Ray是UC Berkeley RISELab推出的一种高性能分布式执行框架，旨在简化从单机到大规模集群的分布式应用迁移。Ray提供动态任务图计算模型，支持任务模型和角色模型，实现异步计算和细粒度负载均衡。它在处理强化学习算法时表现出优秀的性能，与特定系统相比，如ES和PPO，Ray能有效扩展并保持高吞吐量。Ray的架构包括全局调度器、Redis服务器、本地调度器和对象存储，允许在多台机器上扩展计算任务。Ray还提供了Tune、RLlib和Ray Serve等高级库，用于超参数调整、强化学习和模型服务。

摘要由CSDN通过智能技术生成

在这里插入图片描述

前言

随着机器学习算法和技术的进步，出现了越来越多需要在多台机器并行计算的机器学习应用。然而，在集群计算设备上运行的机器学习算法目前仍是专门设计的。尽管对于特定的用例而言（如参数服务器或超参数搜索），这些解决方案的效果很好，同时 AI 领域之外也存在一些高质量的分布式系统（如 Hadoop 和 Spark），但前沿开发者们仍然常常需要从头构建自己的系统，这意味着需要耗费大量时间和精力。

例如，应用一个简单概念的算法，如在强化学习中的进化策略（论文《Evolution Strategies as a Scalable Alternative to Reinforcement Learning》）。算法包含数十行伪代码，其中的 Python 实现也并不多。然而，在较大的机器或集群上运行它需要更多的软件工程工作。作者的实现包含了上千行代码，以及必须定义的通信协议、信息序列化、反序列化策略，以及各种数据处理策略。

Ray 的目标之一在于：让开发者可以用一个运行在笔记本电脑上的原型算法，仅需添加数行代码就能轻松转为适合于计算机集群运行的（或单个多核心计算机的）高性能分布式应用。这样的框架需要包含手动优化系统的性能优势，同时又不需要用户关心那些调度、数据传输和硬件错误等问题。

本文对Ray进行介绍，以帮助大家更快地了解Ray是什么，并且与Native Python进行对比。如有描述不当的地方，欢迎不吝指正。