S-LoRA：实现多 LoRA 大模型的高效并行化推理

青稞社区.

已于 2024-08-20 17:22:31 修改

阅读量207

点赞数 9

分类专栏：青稞Talk 文章标签：人工智能语言模型

于 2024-08-20 17:11:44 首次发布

本文链接：https://blog.csdn.net/QingKeLab/article/details/141363333

版权

青稞Talk 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

关注公众号：青稞AI，第一时间了解最新AI技术
🔥青稞Talk主页：qingkelab.github.io/talks

对于行业大模型来说，仅仅拥有强大的基座大模型是远远不够的。而通过对一个基座模型使用行业数据进行LoRA微调，可以得到多个小型LoRA适配器作为微调结果。这些适配器的参数虽然非常小（例如只有基础模型参数的1%），但却能更好的适用于特定行业。然而在部署上，又会面临一个新的问题：一个base model+几千个lora，怎么serving？

在这里插入图片描述

S-LoRA解决的就是如何在单台机器上部署数千个同源的LoRA adapter。当然前提是这些LoRA adapter都是来自同一个base model的权重。针对从同一基础模型用LoRA微调出来的多个adapter结果，S-Lora的提出者提出了一套高效部署方案。通过扩展Batching策略，PageAttention内存管理策略和并行策略，实现单个GPU服务上千个LoRA adapter的效果。

Paper：S-LoRA: Serving Thousands of Concurrent LoRA Adapters
Abs：https://arxiv.org/pdf/2311.03285.pdf
Code：https://github.com/S-LoRA/S-LoRA

与HuggingFace PEFT和vLLM相比，S-LoRA可以将吞吐量提高最多4倍，并将可服务的适配器数量增加几个数量级。因此，S-LoRA实现了许多特定任务的微调模型的大规模服务，并为大规模定制化的微调服务提供了潜力。

在这里插入图片描述

8月26日11点，青稞Talk第20期，UC Berkeley 博士生曹诗怡，将对 S-Lora 进行分享，主题为《S-LoRA：实现多 LoRA 大模型的高效并行化推理》。

Talk信息

主讲嘉宾

曹诗怡，UC Berkeley 博士生；导师是Ion Stoica和Joseph E. Gonzalez教授，主要研究方向为机器学习系统，分布式系统和高性能计算。此前，在上海交通大学取得计算机科学学士学位，在苏黎世联邦理工取得硕士学位。博士一年级期间主要研究大语言模型的高效推理和部署，相关成果发表在MLSys，OSDI等会议中。个人主页：https://shiyicao.com/