FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型

最新推荐文章于 2024-05-30 16:29:01 发布

量化交易曾小健(金融号)

最新推荐文章于 2024-05-30 16:29:01 发布

阅读量447

点赞数

分类专栏：大语言模型ChatGPT - LLM 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39970492/article/details/130907592

版权

大语言模型ChatGPT - LLM 专栏收录该内容

42 篇文章 14 订阅

订阅专栏

通过集成GPTQ-for-LLaMa，Vicuna模型的VRAM需求从28GB降至10GB，使得在消费级GPU上运行13B模型成为可能。量化模型还提供约3倍的推理速度提升，尽管精度略有下降，但对大模型的影响较小，使得更多用户可以访问和利用该模型。

摘要由CSDN通过智能技术生成

由于 FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型，我已将 GPTQ-for-LLaMa 存储库集成到此分支中以运行 GPTQ 量化模型。为什么我们应该使用 Vicuna 模型的 GPTQ 量化版本？通过使用 GPTQ 量化版本，我们可以将 VRAM 要求从 28 GB 减少到大约 10 GB，这使我们能够在单个消费类 GPU 上运行 Vicuna-13B 模型。另一个优点是使用量化模型版本时推理过程中的加速约为 3 倍。有什么缺点吗？是的，量化模型的精度略低，因此性能略差于全精度模型。然而，正是模型的量化让我们中的许多人完全可以使用该模型。下图来自 GPTQ 论文表明，特别是对于较大的语言模型，由于应用量化而导致的质量下降很小：

量化交易曾小健(金融号)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型

另一个优点是使用量化模型版本时推理过程中的加速约为 3 倍。是的，量化模型的精度略低，因此性能略差于全精度模型。然而，正是模型的量化让我们中的许多人完全可以使用该模型。存储库集成到此分支中以运行 GPTQ 量化模型。为什么我们应该使用 Vicuna 模型的 GPTQ 量化版本？通过使用 GPTQ 量化版本，我们可以将 VRAM 要求从。，这使我们能够在单个消费类 GPU 上运行。表明，特别是对于较大的语言模型，由于。28 GB 减少到大约 10 GB。应用量化而导致的质量下降。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。