FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型

由于 FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型,我已将 GPTQ-for-LLaMa 存储库集成到此分支中以运行 GPTQ 量化模型。为什么我们应该使用 Vicuna 模型的 GPTQ 量化版本?通过使用 GPTQ 量化版本,我们可以将 VRAM 要求从 28 GB 减少到大约 10 GB,这使我们能够在单个消费类 GPU 上运行 Vicuna-13B 模型。另一个优点是使用量化模型版本时推理过程中的加速约为 3 倍。有什么缺点吗?是的,量化模型的精度略低,因此性能略差于全精度模型。然而,正是模型的量化让我们中的许多人完全可以使用该模型。下图来自 GPTQ 论文表明,特别是对于较大的语言模型,由于应用量化而导致的质量下降很小:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值