EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

最新推荐文章于 2024-10-06 22:00:42 发布

UnknownBody

最新推荐文章于 2024-10-06 22:00:42 发布

阅读量728

点赞数

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/133039508

版权

LLM 日更专栏收录该内容

516 篇文章 3 订阅

已下架不支持订阅

EdgeMoE是首个针对MoE LLM的设备端推理引擎，解决大型语言模型在边缘设备上运行的内存和计算效率问题。通过专家位宽自适应和专家预加载技术，实现内存节省和性能提升，允许在边缘设备上实时推理MoE LLM。

摘要由CSDN通过智能技术生成

本文是LLM系列文章，针对《EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models》的翻译。

EdgeMoE：基于MoE的大型语言模型的快速设备推理

摘要
1 引言
2 实验与分析
3 EDGEMOE设计
4 评估
5 相关工作
6 结论

摘要

GPT和LLaMa等大型语言模型（LLM）由于其在广泛的机器学习任务中的卓越能力，迎来了机器智能的一场革命。然而，LLM从数据中心向边缘设备的过渡带来了一系列挑战和机遇。虽然这种转变可以增强隐私和可用性，但这些模型的巨大参数大小阻碍了这种转变，导致不切实际的运行时成本。
鉴于这些考虑，我们介绍了EdgeMoE，这是第一个为专家（MoE）LLM的混合量身定制的设备上推理引擎，这是稀疏LLM的一种流行变体，其参数大小尺度显示出几乎恒定的计算复杂性。EdgeMoE通过在存储层次结构中战略性地划分模型，实现了内存和计算效率。具体而言，非专家权重存储在设备的存储器中，而专家权重则保存在外部存储器中，只有在激活时才会被提取到存储器中。这一设计的基础是一个关键的见解，即专家权重虽然庞大，但由于激活模式稀疏，很少被访问。为了进一步减轻与专家I/O交换相关的开销，EdgeMoE结合了两种创新技术：（1）专家位宽自适应：这种方法在可接受的精度损失水平上减少了专家权重的大小。（2）专家管理：它提前预测将被激活的专

了解本专栏

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

已下架不支持订阅

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。