直播|Meta新工作,350M小模型压缩部署移动端(MobileLLM, SpinQuant)性能比肩7B LLaMA-v2...

8a6b2ce4cc7eedfe96db2f718a0db58a.jpeg

报告主题:大语言模型的压缩部署 (MobileLLM, SpinQuant)

报告日期:8月8日(周四)10:30-11:30

ab149793b838881ff111542fdc6d08ab.png

报告要点:

在大语言模型不断给人们带来惊喜的同时,大语言模型的资源耗费和部署成为了其大规模应用的瓶颈。为了应对不断增加而导致的移动设备上对高效大型语言模型 (LLM) 日益增长的需求,我们设计参数少于十亿的 LLM,称为 MobileLLM,与之前的 125M/350M 最先进技术相比,其准确率显着提高了 2.7%/4.3%。与之前的数十亿级模型相比,MobileLLM 模型系列在聊天任务中显示出显着改进,并在 API 调用任务中展示了与 LLaMA-v2 7B 接近的正确性,突出了小型模型针对常见设备上应用的的能力。近期,我们进一步研究量化大语言模型。LLM 量化的难度主要来自于网络中存在长尾分布值(outliers),我们发现旋转激活或权重矩阵有助于消除异常值并有利于量化。我们提出 SpinQuant ,将 LLaMA-2 7B 模型上4-bit 量化精度与全精度的差距缩小到仅 2.9 点,超过 LLM-QAT 19.1 点和 SmoothQuant 25.0 点。

报告嘉宾:

刘泽春 , Meta资深研究员,研究兴趣包括大语言模型,计算机视觉,主要研究领域是模型的压缩加速量化,研究成果发表于ICML/NeurIPS/ACL/CVPR 等领域内顶级会议,被引用4000余次。

0e1b3ed3f6b3f8f475f505cc47e215ff.png

扫码报名


近期热门报告

8671f0e3c34c9d5ffd35e27ae6c0d535.jpeg

2e27cf89528d6eed3944c98f9cf10f23.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值