哪种LLM量化方法最适合您？：GGUF、GPTQ 还是 AWQ

最新推荐文章于 2025-03-16 21:43:05 发布

GordonJK

最新推荐文章于 2025-03-16 21:43:05 发布

阅读量1.1k

点赞数 3

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/weixin_40358523/article/details/140817098

版权

哪种LLM量化方法最适合您？：GGUF、GPTQ 还是 AWQ

1. GGUF：(GPT-Generated Unified Format, GPT 生成的统一格式)
GGUF 是 GGML 的后继者，由 llama.cpp 团队推出。它是一种专为大型语言模型设计的量化方法。它允许用户在 CPU 上运行 LLM，同时通过提供速度改进将一些层卸载到 GPU。GGUF 对于那些在 CPU 或 Apple 设备上运行模型的用户特别有用。在 GGUF 上下文中，量化涉及缩小模型权重（通常存储为 16 位浮点数）以节省计算资源。GGUF 是一种更高效、更灵活的存储和使用 LLM 进行推理的方法。它经过量身定制，可快速加载和保存模型，并采用用户友好的方法来处理模型文件。

总之，GGUF 代表了一种为灵活性而设计的新格式，专门用于在 CPU 和 Apple M 系列设备上运行，同时允许将某些层卸载到 GPU。

与 GPTQ 和 AWQ 的比较：