安装库
加载7B的LLM在GPU上进行推理,我这24G的显存居然一次推理都执行不了,Out of Memory。
这里采用Quanto库进行对模型进行量化
quanto==0.1.0版本的库,需要torch版本>2.2.0, 建议先将torch进行升级
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
然后安装
pip install quanto
pip install accelerate
transformers 版本 == 4.40.0
quanto==0.1.0
-----------------------------------------------------------------------------
quanto量化过程中需要gcc版本大于9.0.0(这个可以自己升级下)
----------------------------------------------------------------------------
量化
模型量化后,再执行生成文本
代码如下, 只用了不到13G的显存就能够完成推理。
from transformers import AutoTokenizer,AutoModelForCausalLM, QuantoConfig
impor