lorax学习资料汇总 - 支持千级微调模型的多LoRA推理服务器

lorax简介

lorax(LoRA eXchange)是一个多LoRA推理服务框架,允许用户在单个GPU上部署数千个微调模型,大幅降低服务成本而不影响吞吐量和延迟。它由Predibase公司开发并开源,采用Apache 2.0许可证。

lorax logo

主要特性

lorax具有以下主要特性:

  • 🚅 动态适配器加载:可以在请求中包含来自HuggingFace、Predibase或任何文件系统的微调LoRA适配器,它会即时加载而不阻塞并发请求。
  • 🏋️‍♀️ 异构连续批处理:将不同适配器的请求打包到同一批次中,使延迟和吞吐量与并发适配器数量几乎保持恒定。
  • 🧁 适配器交换调度:在GPU和CPU内存之间异步预取和卸载适配器,调度请求批处理以优化系统的总吞吐量。
  • 👬 优化推理:包括张量并行、预编译CUDA内核、量化、token流等高吞吐量和低延迟优化。
  • 🚢 生产就绪:预构建的Docker镜像、Kubernetes的Helm图表、Prometheus指标和Open Telemetry分布式追踪。支持多轮对话的OpenAI兼容API。
  • 🤯 免费商用:Apache 2.0许可证。

快速开始

安装要求

  • Nvidia GPU (Ampere及以上)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值