边缘大模型(Large Models)推理加速

边缘大模型(Large Models)包括Large Language Models (LLMs)和Large Vision Models (LVMs)。本文介绍清华大学和上海交通大学在边缘大模型推理加速相关的工作《SwapMoE: Efficient Memory-Constrained Serving of Large Sparse MoE Models via Dynamic Expert Pruning and Swapping》。

介绍

混合专家(Mixture of experts, MoE)是一种增加大模型能力的重要技术,例如在Mixtral-8x7B Large Language Model (LLM)中就用到了这种技术。研究团队发现MoE大模型在推理时具有很强的(1)稀疏性和(2)时间局部性。具体来说,每次进行推理时,MoE模型只有不到10%的参数参与了运算,而剩下的90%都处于闲置状态;并且这种稀疏性会在一定时间或者domain保持稳定。此外,研究团队还发现MoE模型中experts是(3)可以替换的,如果将MoE模型的Top1路由改为只用Second Top路由,模型的性能损失很小。因此利用(1)(2)(3)三种特性,可以大幅降低MoE模型的推理显存占用和推理时延。

实验

在这里插入图片描述

通过实验验证,论文所提方法可以大幅降低MoE大模型的推理显存占用,例如本来在Jetson Nano上无法运行的Switch Transformers Base - 32模型,通过优化后,可以减少到只用原来25%的显存,并且性能损失很小。

  • 9
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值