NeurIPS 2023 | 英特尔提出全新部署方法,在CPU上进行高效LLM推理

英特尔的研究提出了一种针对大语言模型(LLM)的部署方法,通过自动INT4量化流程和专门的LLM runtime实现CPU上的高效推理。在第四代Intel Xeon可扩展处理器上,6B到20B参数的LLM推理延迟显著降低,接近人类阅读速度,同时保持1%以内的准确性损失。
摘要由CSDN通过智能技术生成

a396736cd7eef0ac57d7b165c59f53ac.gif

©PaperWeekly 原创 · 作者 | 岳廷

研究方向 | 大语言模型

d414ef3176e7e88528885723bbe5de0b.png

论文链接 : 

https://arxiv.org/pdf/2311.00502.pdf

代码链接 : 

https://github.com/intel/intel-extension-for-transformers

要解决的问题:随着 GPT 4-turbo 的爆火,可以预见,大语言模型(LLM)将逐渐在个人电脑上普及(微软甚至已在最新 Windows 11 上有类似功能)。考虑到显卡价格高昂,不是每个人都能负担得起。因此,用 PC 上的 CPU 对 LLM 进行高效推理将成为一种理想选择。同时,对用户来说,LLM 更快的响应速度,更少的内存占用,将带来更好的用户体验。因此提升 LLM 在 CPU 上推理性能,将持续成为研究热点。

解决方案:来自英特尔的研究人员提出了一种有效的方法,可以使 LLMs 的部署更加高效。该方法支持 LLM INT4 自动权重量化流程,并设计了一个特殊的 LLM runtime,使用高度优化的内核来加速 LLM 在 CPU 上的推理。

结果:结果显示,在第四代 Intel® Xeon® 可扩展处理器上,6B 到 20B 参数的 LLM 平均单个 Token 生成延迟为从 20ms 到 80ms,显著快于人类阅读速度(人类大约每 200ms 阅读一个 Token),同时准确性损失仅为 1%,接近 FP32 基线。

ed1ba594504eb69ac543272fab383deb.png

方案

大语言模型(LLM)参数数量惊人,需要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值