lorax学习资料汇总 - 支持千级微调模型的多LoRA推理服务器

最新推荐文章于 2025-04-28 15:52:22 发布

2401_87189860

最新推荐文章于 2025-04-28 15:52:22 发布

阅读量714

点赞数 16

文章标签：服务器运维

本文链接：https://blog.csdn.net/2401_87189860/article/details/142363182

版权

lorax(LoRA eXchange)是一个多LoRA推理服务框架,允许用户在单个GPU上部署数千个微调模型,大幅降低服务成本而不影响吞吐量和延迟。它由Predibase公司开发并开源,采用Apache 2.0许可证。

lorax logo

lorax具有以下主要特性:

🚅 动态适配器加载:可以在请求中包含来自HuggingFace、Predibase或任何文件系统的微调LoRA适配器,它会即时加载而不阻塞并发请求。
🏋️‍♀️ 异构连续批处理:将不同适配器的请求打包到同一批次中,使延迟和吞吐量与并发适配器数量几乎保持恒定。
🧁 适配器交换调度:在GPU和CPU内存之间异步预取和卸载适配器,调度请求批处理以优化系统的总吞吐量。
👬 优化推理:包括张量并行、预编译CUDA内核、量化、token流等高吞吐量和低延迟优化。
🚢 生产就绪:预构建的Docker镜像、Kubernetes的Helm图表、Prometheus指标和Open Telemetry分布式追踪。支持多轮对话的OpenAI兼容API。
🤯 免费商用:Apache 2.0许可证。