使用 Bitsandbytes 量化 Llama 3 8B 以保持其准确性 Llama 2 与 Llama 3 与 Mistral 7B,使用 GPTQ 和 Bitsandbytes 进行量化

本文探讨了使用Bitsandbytes和GPTQ对Llama 3 8B进行量化的效果。尽管GPTQ 4位量化导致性能显著下降,但Bitsandbytes 4位量化保持了Llama 3的精度。研究表明,8位量化可能是一个较好的选择,而4位量化则需谨慎对待。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通过量化,我们可以减小大型语言模型 (LLM) 的大小。量化后的 LLM 更容易在内存较小的 GPU 上运行,可有效用作 LLM 的压缩方法。

根据Meta 自己的评测,Llama 3 8B 优于 Llama 2 7B 和 Mistral 7B。然而问题来了:量化之后,Llama 3 8B 是否还能保持优势呢?

换句话说,如果 Llama 3 优于 Mistral 7B 和 Llama 2(Llama 3 > Mistral 7B > Llama 2 7B),那么量化版本是否也比这些量化模型更好(量化 Llama 3 > 量化 Mistral 7B > 量化 Llama 2 7B)?

在本文中,我们将回答这个问题。我使用 bitsandbytes 将所有模型量化为 8 位和 4 位,使用 GPTQ 将所有模型量化为 8 位、4 位、3 位和 2 位,并在 3 个不同任务上检查它们的性能。我们将看到,对于 Llama 3,使用这两种量化算法,8 位量化效果都相当好。我还发现,虽然 GPTQ 4 位会显著降低模型的性能,但 bitsandbytes 量化似乎效果很好。

Llama 3 的 GPTQ 量化

GPTQ 是一种非常流行的量化方案,支持多种神经架构。借助AutoGPTQ(MIT 许可证

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识大胖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值