FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型

通过集成GPTQ-for-LLaMa,Vicuna模型的VRAM需求从28GB降至10GB,使得在消费级GPU上运行13B模型成为可能。量化模型还提供约3倍的推理速度提升,尽管精度略有下降,但对大模型的影响较小,使得更多用户可以访问和利用该模型。
摘要由CSDN通过智能技术生成

由于 FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型,我已将 GPTQ-for-LLaMa 存储库集成到此分支中以运行 GPTQ 量化模型。为什么我们应该使用 Vicuna 模型的 GPTQ 量化版本?通过使用 GPTQ 量化版本,我们可以将 VRAM 要求从 28 GB 减少到大约 10 GB,这使我们能够在单个消费类 GPU 上运行 Vicuna-13B 模型。另一个优点是使用量化模型版本时推理过程中的加速约为 3 倍。有什么缺点吗?是的,量化模型的精度略低,因此性能略差于全精度模型。然而,正是模型的量化让我们中的许多人完全可以使用该模型。下图来自 GPTQ 论文表明,特别是对于较大的语言模型,由于应用量化而导致的质量下降很小:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值