StarCloud开源行动:激发算力调度的创新潜力

01  于StarCloud

OpenCSG StarCloud 是一个集开源系统(Kubernetes ,K8S)与高性能计算(High Performance  Computing,HPC)一体的混合算力调度平台。它专注于大模型训练和推理,并提供一站式服务,包括从训练到部署,以及多模型比较等。除了在人工智能领域的应用,StarCloud 在工程设计与仿真、金融和风险管理、药物研发和医学研究等多个领域也展现出其卓越的性能。

随着大模型应用的发展及落地,GPU 算力资源变得日益紧张,StarCloud提供了多样化的异构计算算力服务,旨在满足大模型应用和高性能计算的需求,致力于构建一个普惠、易用的算力服务平台。StarCloud的资源调度平台有效缓解这一问题,通过精细化管理大模型的调度过程,从而提高资源的利用率。此外,企业可以利用StarCloud部署自己私有化的平台,实现定制化的资源管理和调度,以满足特定的业务需求。

02  StarCloud 功能介绍

StarCloud 是一个全面而高效的混合算力调度平台,它整合了多机多卡异构算力调度、异地多中心的统一调度,通过并行化计算加速大规模任务的处理。平台还能支持构建超大运算中心,调度数百万内核和数万GPU资源,同时提供了大模型微调的统一框架,以及多租户和私有化的支持,确保了调度的高效性和灵活性。

StarCloud功能覆盖了多个关键领域。接下来,本文将从用户模块、作业模块、资源模块、调度策略及其它这四个方面,为您详细解读 StarCloud 的核心功能:

用户模块

   1.多租户管理

  • 引入多租户管理功能,支持同时管理多个租户。

  • 通过强化数据与资源隔离,精准满足差异化租户需求。

   2. 用户角色

  • 允许定义和分配用户角色,优化访问控制和权限管理。

  • 为不同用户提供定制化的视图,并确保资源量与数据的独立性。

   3.用户和用户组设定

  • 提供了用户和用户组的设置功能,用户和用户组的管理更加便捷高效。

  • 确保系统用户的管理高效和准确。

   4.用户登录登出

  • 支持用户的登录和登出功能,确保系统的安全性和用户身份的验证。

作业模块

   1.作业状态查看

  • 允许实时监控提交作业的状态,包括进度和完成度。

  • 提供了对作业执行情况的全面监控,确保用户能够随时了解作业的进度和状态。

   2.作业详情和作业输出内容查看

  • 提供了对作业详细信息和输出内容的查看功能。

  • 深入了解作业的执行结果和输出。

   3.作业提交和相关参数配置

  • 提供了作业提交功能,同时还提供了相关参数的配置选项。

  • 灵活地配置作业的执行方式和参数。

资源模块​​​​​​

   

1.集群资源状态查看

  • 允许用户实时查看集群资源状态,包括资源的可用性和利用率。

  • 用户能够可视化管理资源,全面掌握集群资源的实时状况

   2.阿里云资源动态调度

  • 引入了阿里云资源的动态调度功能,能够更加灵活地管理和分配阿里云上的资源。

  • 满足不同作业的需求。

调度策略及其它

1.角色和队列关联

  • 提供角色和队列关联功能,将特定角色与特定队列相关联。

  • 简化作业的提交和管理流程。

   2.QoS创建和维护

  • 提供了QoS(服务质量)的创建和维护功能。

  • 满足不同作业的特定需求,确保作业按照预期的优先级和要求执行。

03  更多计划

未来,StarCloud 将持续优化和发展,增加更多实用的功能,进一步提升用户体验并满足不断变化的计算需求。这些功能可能包括但不限于:

  • StarCloud 一体式安装包

  • StarCloud K8S operator

  • StarCloud与 csghub整合, 允许用户选择模型微调

  • 支持更多微调框架例如 deepspeed, pytorch chepoint

  • 失败作业自动从检查点重启

StarCloud 开源地址:

https://github.com/OpenCSGs/llm-scheduler-ui 

https://github.com/OpenCSGs/llm-scheduler-api

  • 8
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值