©PaperWeekly 原创 · 作者 | 岳廷
研究方向 | 大语言模型
论文链接 :
https://arxiv.org/pdf/2311.00502.pdf
代码链接 :
https://github.com/intel/intel-extension-for-transformers
要解决的问题:随着 GPT 4-turbo 的爆火,可以预见,大语言模型(LLM)将逐渐在个人电脑上普及(微软甚至已在最新 Windows 11 上有类似功能)。考虑到显卡价格高昂,不是每个人都能负担得起。因此,用 PC 上的 CPU 对 LLM 进行高效推理将成为一种理想选择。同时,对用户来说,LLM 更快的响应速度,更少的内存占用,将带来更好的用户体验。因此提升 LLM 在 CPU 上推理性能,将持续成为研究热点。
解决方案:来自英特尔的研究人员提出了一种有效的方法,可以使 LLMs 的部署更加高效。该方法支持 LLM INT4 自动权重量化流程,并设计了一个特殊的 LLM runtime,使用高度优化的内核来加速 LLM 在 CPU 上的推理。
结果:结果显示,在第四代 Intel® Xeon® 可扩展处理器上,6B 到 20B 参数的 LLM 平均单个 Token 生成延迟为从 20ms 到 80ms,显著快于人类阅读速度(人类大约每 200ms 阅读一个 Token),同时准确性损失仅为 1%,接近 FP32 基线。
方案
大语言模型(LLM)参数数量惊人,需要