lorax简介
lorax(LoRA eXchange)是一个多LoRA推理服务框架,允许用户在单个GPU上部署数千个微调模型,大幅降低服务成本而不影响吞吐量和延迟。它由Predibase公司开发并开源,采用Apache 2.0许可证。
主要特性
lorax具有以下主要特性:
- 🚅 动态适配器加载:可以在请求中包含来自HuggingFace、Predibase或任何文件系统的微调LoRA适配器,它会即时加载而不阻塞并发请求。
- 🏋️♀️ 异构连续批处理:将不同适配器的请求打包到同一批次中,使延迟和吞吐量与并发适配器数量几乎保持恒定。
- 🧁 适配器交换调度:在GPU和CPU内存之间异步预取和卸载适配器,调度请求批处理以优化系统的总吞吐量。
- 👬 优化推理:包括张量并行、预编译CUDA内核、量化、token流等高吞吐量和低延迟优化。
- 🚢 生产就绪:预构建的Docker镜像、Kubernetes的Helm图表、Prometheus指标和Open Telemetry分布式追踪。支持多轮对话的OpenAI兼容API。
- 🤯 免费商用:Apache 2.0许可证。
快速开始
安装要求
- Nvidia GPU (Ampere及以上)