HuggingFace中模型量化

文章介绍了如何在24GB显存的GPU上解决大模型推理内存问题,通过使用Quanto库进行模型量化,以及利用HuggingFace的bfloat16分布式处理来降低内存消耗。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

安装库

加载7B的LLM在GPU上进行推理,我这24G的显存居然一次推理都执行不了,Out of Memory。

这里采用Quanto库进行对模型进行量化

quanto==0.1.0版本的库,需要torch版本>2.2.0, 建议先将torch进行升级

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118

然后安装

pip install quanto
pip install accelerate

transformers 版本 == 4.40.0

quanto==0.1.0

-----------------------------------------------------------------------------

quanto量化过程中需要gcc版本大于9.0.0(这个可以自己升级下)

----------------------------------------------------------------------------

量化

模型量化后,再执行生成文本

代码如下, 只用了不到13G的显存就能够完成推理。

from transformers import AutoTokenizer,AutoModelForCausalLM, QuantoConfig
impor
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值