NeurIPS 2023 | 英特尔提出全新部署方法，在CPU上进行高效LLM推理

最新推荐文章于 2024-08-07 21:18:16 发布

PaperWeekly

最新推荐文章于 2024-08-07 21:18:16 发布

阅读量1.1k

点赞数 12

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/134635801

版权

英特尔的研究提出了一种针对大语言模型（LLM）的部署方法，通过自动INT4量化流程和专门的LLM runtime实现CPU上的高效推理。在第四代Intel Xeon可扩展处理器上，6B到20B参数的LLM推理延迟显著降低，接近人类阅读速度，同时保持1%以内的准确性损失。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 岳廷

研究方向 | 大语言模型

论文链接 :

https://arxiv.org/pdf/2311.00502.pdf

代码链接 :

https://github.com/intel/intel-extension-for-transformers

要解决的问题：随着 GPT 4-turbo 的爆火，可以预见，大语言模型（LLM）将逐渐在个人电脑上普及（微软甚至已在最新 Windows 11 上有类似功能）。考虑到显卡价格高昂，不是每个人都能负担得起。因此，用 PC 上的 CPU 对 LLM 进行高效推理将成为一种理想选择。同时，对用户来说，LLM 更快的响应速度，更少的内存占用，将带来更好的用户体验。因此提升 LLM 在 CPU 上推理性能，将持续成为研究热点。

解决方案：来自英特尔的研究人员提出了一种有效的方法，可以使 LLMs 的部署更加高效。该方法支持 LLM INT4 自动权重量化流程，并设计了一个特殊的 LLM runtime，使用高度优化的内核来加速 LLM 在 CPU 上的推理。

结果：结果显示，在第四代 Intel® Xeon® 可扩展处理器上，6B 到 20B 参数的 LLM 平均单个 Token 生成延迟为从 20ms 到 80ms，显著快于人类阅读速度（人类大约每 200ms 阅读一个 Token），同时准确性损失仅为 1%，接近 FP32 基线。