直播｜Meta新工作，350M小模型压缩部署移动端（MobileLLM, SpinQuant）性能比肩7B LLaMA-v2...

智源社区

于 2024-07-28 11:01:01 发布

阅读量104

点赞数

文章标签： llama

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247551030&idx=4&sn=45ddc1876c276f634458d8ddc59490ed&chksm=ffd3d37a7c28e2c6d6c913aaa2942b52253a99f5ed36e12df581bf3b91dcbab48e2b45fe65fb&scene=126&sessionid=0

版权

报告主题：大语言模型的压缩部署（MobileLLM, SpinQuant）

报告日期：8月8日（周四）10:30-11:30

报告要点：

在大语言模型不断给人们带来惊喜的同时，大语言模型的资源耗费和部署成为了其大规模应用的瓶颈。为了应对不断增加而导致的移动设备上对高效大型语言模型 (LLM) 日益增长的需求，我们设计参数少于十亿的 LLM，称为 MobileLLM，与之前的 125M/350M 最先进技术相比，其准确率显着提高了 2.7%/4.3%。与之前的数十亿级模型相比，MobileLLM 模型系列在聊天任务中显示出显着改进，并在 API 调用任务中展示了与 LLaMA-v2 7B 接近的正确性，突出了小型模型针对常见设备上应用的的能力。近期，我们进一步研究量化大语言模型。LLM 量化的难度主要来自于网络中存在长尾分布值（outliers），我们发现旋转激活或权重矩阵有助于消除异常值并有利于量化。我们提出 SpinQuant ，将 LLaMA-2 7B 模型上4-bit 量化精度与全精度的差距缩小到仅 2.9 点，超过 LLM-QAT 19.1 点和 SmoothQuant 25.0 点。

报告嘉宾：

刘泽春 , Meta资深研究员，研究兴趣包括大语言模型，计算机视觉，主要研究领域是模型的压缩加速量化，研究成果发表于ICML/NeurIPS/ACL/CVPR 等领域内顶级会议，被引用4000余次。

扫码报名

近期热门报告

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。