PUNICA: MULTI-TENANT LORA SERVING

LoRA(低秩适应)核心思想:保留预训练模型的权重,同时在每一层的Transformer结构中引入可训练的秩分解矩阵,从而显著减少了需要训练的参数的数量,降低了训练的成本和时间,同时在加载特定模型时只需要加载对应的秩分解矩阵,大大缩减了模型加载时间

Punica系统:设计了一个CUDA内核,叫做分段聚合矩阵向量乘法(SGMV),它可以实现对不同的LoRA模型的并行计算,并且只需要在GPU内存中存储一份预训练模型的权重,从而提高了GPU的效率和利用率。Punica还设计了新的调度机制来合并多租户的LoRA工作负载,从而释放GPU资源

SGMV:可以实现对不同的LoRA模型的请求进行批量处理,从而实现多个LoRA模型的并行执行。

按需加载的机制:在毫秒级的延迟内,将LoRA模型的权重从主存储器复制到GPU内存中,从而避免了模型切换的开销。

调度机制:对于新请求,Punica将它分配到一小部分活跃的GPU上,确保充分利用GPU。只有当现有GPU都被充分利用时,Punica才会分配额外的GPU。对于已经存在的请求,Punica定期将它们迁移到其他的GPU上,从而实现工作负载的合并。

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值