MoLE & SpeCache：降低模型参数与KV Cache两大推理时显存开销-CSDN博客

本文链接：https://blog.csdn.net/QingKeLab/article/details/148060700

https://mp.weixin.qq.com/s/SzCma9uMvQdNQu9EOKVAZQ

LLM在多个领域表现出强大能力，尽管在线服务广泛应用，但出于隐私和离线需求，个人常需要端侧部署。然而，现有的基于MoE和Transformer架构的LLM在端侧部署时面临显存容量不足的挑战。

5月22日20:00，青稞Talk 第50期，北京大学智能学院博士生、华为诺亚方舟实验室实习生节世博，将直播分享《MoLE & SpeCache：大语言模型端侧部署的架构与算法》。

本期Talk将聚焦模型参数与KV Cache两大推理时显存开销来源的两项解决方案：MoLE 和 SpeCache。
在这里插入图片描述

MoLE 架构将专家模块转化为可存储在底层存储中的查找表，用显存外的查找代替显存内的计算，显著降低显存需求和搬运代价。

论文名称：Mixture of Lookup Experts
论文链接：https://arxiv.org/pdf/2503.15798
论文代码：https://github.com/JieShibo/MoLE

SpeCache通过卸载KV Cache来降低显存需求，并在解码时临时加载所需要的top-k KV Cache，通过投机预取方法对top-k进行提前猜测，实现KV Cache的预取与解码计算并行。

论文名称：SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs
论文链接：https://arxiv.org/pdf/2503.16163

节世博，北京大学智能学院博士生，华为诺亚方舟实验室实习生，研究方向为大模型的高效微调与推理，在ICML、ICCV、ECCV、AAAI等AI领域国际顶级会议发表六篇一作工作。

MoLE & SpeCache：大语言模型端侧部署的架构与算法

1、MoE 和 Transformer架构大模型在部侧部署的挑战
2、降低推理时显存的主流方法解析
3、MoLE：推理阶段可重参数化的新型 MoE 架构
4、SpeCache：针对 KV Cache 降低显存开销

5月22日20:00 - 21:00