由于多模态模型GLM4-4V-9B多卡部署会遇到很多bug,本人的单张显卡只有16GB,只能部署量化版INT4精度的。现在就分享一下INT4量化版部署遇到的问题以及解决方法。
参数配置
代码文件:trans_cli_vision_demo.py
模型参数:trans_cli_vision_demo.py的代码中有提供INT4的参数配置,只需要解除注释就可以了。
遇到的问题:
初次运行trans_cli_vision_demo.py
会遇到运算维度不连续的问题。刚开始以为进入报错目录修改visual.py
的代码就能解决这个问题,结果发现修改代码后再次运行模型trans_cli_vision_demo.py
,还是报出相同的错误,并发现visual.py文件被重置了。
后来修改visual.py
的权限变为不可修改,发现/home/user/.cache/huggingface/modules/transformers_modules/glm-4v-9b
目录下的visual.py
文件是从其它的地方copy过去的。在全局搜索发现glm-4v-9b的模型目录下也有这个visual.py
,且修改这个文件的代码也解决了报错的问题。
代码修改
提示报错的代码
output = self.dense(out.transpose(1, 2).view(B, L, -1))
修改后的代码
output = self.dense(out.transpose(1, 2).contiguous().view(B, L, -1))
运行结果
显存占用
模型部署 | 模型推理 |
---|---|
8924MiB | 13058MiB |