theme: github
SkyPilot 是一个用于在任何云上运行 LLM、人工智能和批处理作业的框架,可最大限度地节约成本,提供最高的 GPU 可用性和托管执行。
简介
SkyPilot,由加州大学伯克利分校的 Sky Computing 实验室主导研发的一个开源框架,用于在任何云上无缝且经济高效地运行 ML 和数据科学批处理作业。它的目标是让云比以往任何时候都更容易使用,成本更低,并且全程不需要云计算相关的专业知识。
功能
SkyPilot 减轻了云计算基础设施的负担
- 在任何云上启动作业和集群
- 轻松扩展:排队并运行多个作业,自动管理
- 轻松访问对象存储(S3、GCS、R2)
SkyPilot 可最大限度地提高 GPU 在工作中的可用性 在您可以访问的所有区域/地区/云(Sky)中提供,并自动进行故障切换
SkyPilot 可降低云计算成本
- 托管现成虚拟机:使用现成虚拟机可节省 3-6 倍成本,并可自动从抢占中恢复
- 优化器:自动选择最便宜的虚拟机/区域/地区/云,节省 2 倍成本
- 自动停止:无需动手即可清理闲置集群
SkyPilot 支持现有的 GPU、TPU 和 CPU 工作负载,无需更改代码。
能力范围
什么是SkyServe
SkyServe, SkyPilot中的新服务解决方案,可显着简化跨区域和云部署AI模型/web服务! 下面是一个使用SkyServe为Llama-2-13b启动一个带有+ TGI的推理端点的示例,由3个A100副本支持。
service:
port: 8082
readiness_probe: /health
replicas: 3
resources:
accelerators: A100-80GB:1
run: |
docker run --gpus all --shm-size 1g -p 8082:80 -v ~/data:/data -e HUGGING_FACE_HUB_TOKEN=<your-huggingface-token> ghcr.io/huggingface/text-generation-inference --model-id meta-llama/Llama-2-13b-chat-hf
开启这个服务:
> sky serve up TGI.yaml # On success, returns a TGI endpoint backed by 3 A100 replicas
> curl -L X.X.X.X:8082/generate \
-X POST \
-d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
-H 'Content-Type: application/json'
- 让SkyPilot为您查找gpu:无需手动查找高端gpu。
- 自动缩放和负载平衡:提供了一个开箱即用的负载平衡器来平衡多个副本之间的流量。
- 统一多云管理:通过一个命令行使用多云资源(GCP/AWS/Lambda等)
- 与任何通过HTTP公开的服务框架兼容:SkyServe被设计成与为您的用例量身定制的服务解决方案兼容!在这里查看一些基于FastAPI的FastChat/vllm示例。