S-LoRA:实现多 LoRA 大模型的高效并行化推理

关注公众号:青稞AI,第一时间了解最新AI技术
🔥青稞Talk主页:qingkelab.github.io/talks

对于行业大模型来说,仅仅拥有强大的基座大模型是远远不够的。而通过对一个基座模型使用行业数据进行LoRA微调,可以得到多个小型LoRA适配器作为微调结果。这些适配器的参数虽然非常小(例如只有基础模型参数的1%),但却能更好的适用于特定行业。然而在部署上,又会面临一个新的问题:一个base model+几千个lora,怎么serving?

在这里插入图片描述

S-LoRA解决的就是如何在单台机器上部署数千个同源的LoRA adapter。当然前提是这些LoRA adapter都是来自同一个base model的权重。针对从同一基础模型用LoRA微调出来的多个adapter结果,S-Lora的提出者提出了一套高效部署方案。通过扩展Batching策略,PageAttention内存管理策略和并行策略,实现单个GPU服务上千个LoRA adapter的效果。

Paper:S-LoRA: Serving Thousands of Concurrent LoRA Adapters
Abs:https://arxiv.org/pdf/2311.03285.pdf
Code:https://github.com/S-LoRA/S-LoRA

与HuggingFace PEFT和vLLM相比,S-LoRA可以将吞吐量提高最多4倍,并将可服务的适配器数量增加几个数量级。因此,S-LoRA实现了许多特定任务的微调模型的大规模服务,并为大规模定制化的微调服务提供了潜力。

在这里插入图片描述

8月26日11点,青稞Talk第20期,UC Berkeley 博士生曹诗怡,将对 S-Lora 进行分享,主题为《S-LoRA:实现多 LoRA 大模型的高效并行化推理》。

Talk信息

主讲嘉宾

曹诗怡,UC Berkeley 博士生;导师是Ion Stoica和Joseph E. Gonzalez教授,主要研究方向为机器学习系统,分布式系统和高性能计算。此前,在上海交通大学取得计算机科学学士学位,在苏黎世联邦理工取得硕士学位。博士一年级期间主要研究大语言模型的高效推理和部署,相关成果发表在MLSys,OSDI等会议中。个人主页:https://shiyicao.com/

主题提纲

S-LoRA:实现多 LoRA 大模型的高效并行化推理

1、大模型时代的多用户和定制化 LLM Serving 问题
2、常见的大模型微调方法及 LoRA 介绍
3、多 LoRA 并行推理的挑战
4、S-LoRA 方法解析及实现
5、VTC Fair Scheduling

直播时间

8月26日(周一)11:00-12:00

参与方式

Talk 将在青稞·知识社区上进行,添加【ai_qingke113】对暗号:" 0826 ",报名进群!

  • 9
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值