由于 FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型,我已将 GPTQ-for-LLaMa 存储库集成到此分支中以运行 GPTQ 量化模型。为什么我们应该使用 Vicuna 模型的 GPTQ 量化版本?通过使用 GPTQ 量化版本,我们可以将 VRAM 要求从 28 GB 减少到大约 10 GB,这使我们能够在单个消费类 GPU 上运行 Vicuna-13B 模型。另一个优点是使用量化模型版本时推理过程中的加速约为 3 倍。有什么缺点吗?是的,量化模型的精度略低,因此性能略差于全精度模型。然而,正是模型的量化让我们中的许多人完全可以使用该模型。下图来自 GPTQ 论文表明,特别是对于较大的语言模型,由于应用量化而导致的质量下降很小:
FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型
最新推荐文章于 2024-05-29 14:23:25 发布