大幅降低模型训练成本的神器SkyPilot

最新推荐文章于 2024-12-11 09:25:27 发布

青Cheng序员石头

最新推荐文章于 2024-12-11 09:25:27 发布

阅读量702

点赞数 5

本文链接：https://blog.csdn.net/DynmicResource/article/details/138622815

版权

theme: github

SkyPilot 是一个用于在任何云上运行 LLM、人工智能和批处理作业的框架，可最大限度地节约成本，提供最高的 GPU 可用性和托管执行。

简介

SkyPilot，由加州大学伯克利分校的 Sky Computing 实验室主导研发的一个开源框架，用于在任何云上无缝且经济高效地运行 ML 和数据科学批处理作业。它的目标是让云比以往任何时候都更容易使用，成本更低，并且全程不需要云计算相关的专业知识。

功能

SkyPilot 减轻了云计算基础设施的负担

在任何云上启动作业和集群
轻松扩展：排队并运行多个作业，自动管理
轻松访问对象存储(S3、GCS、R2)

SkyPilot 可最大限度地提高 GPU 在工作中的可用性在您可以访问的所有区域/地区/云(Sky)中提供，并自动进行故障切换

SkyPilot 可降低云计算成本

托管现成虚拟机：使用现成虚拟机可节省 3-6 倍成本，并可自动从抢占中恢复
优化器：自动选择最便宜的虚拟机/区域/地区/云，节省 2 倍成本
自动停止：无需动手即可清理闲置集群

SkyPilot 支持现有的 GPU、TPU 和 CPU 工作负载，无需更改代码。

能力范围

什么是SkyServe

SkyServe, SkyPilot中的新服务解决方案，可显着简化跨区域和云部署AI模型/web服务! 下面是一个使用SkyServe为Llama-2-13b启动一个带有+ TGI的推理端点的示例，由3个A100副本支持。

service:
  port: 8082
  readiness_probe: /health
  replicas: 3

resources:
  accelerators: A100-80GB:1

run: |
  docker run --gpus all --shm-size 1g -p 8082:80 -v ~/data:/data -e HUGGING_FACE_HUB_TOKEN=<your-huggingface-token> ghcr.io/huggingface/text-generation-inference --model-id meta-llama/Llama-2-13b-chat-hf

开启这个服务：

> sky serve up TGI.yaml   # On success, returns a TGI endpoint backed by 3 A100 replicas
> curl -L X.X.X.X:8082/generate \
    -X POST \
    -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
    -H 'Content-Type: application/json'

让SkyPilot为您查找gpu:无需手动查找高端gpu。
自动缩放和负载平衡:提供了一个开箱即用的负载平衡器来平衡多个副本之间的流量。
统一多云管理:通过一个命令行使用多云资源(GCP/AWS/Lambda等)
与任何通过HTTP公开的服务框架兼容:SkyServe被设计成与为您的用例量身定制的服务解决方案兼容!在这里查看一些基于FastAPI的FastChat/vllm示例。