解决 GPTQ 模型导入后推理生成 Tokens 速度很慢的问题（从源码重新安装 Auto-GPTQ）

Hoper.J

已于 2024-10-09 15:06:48 修改

阅读量626

点赞数 3

分类专栏： AIGC 经验及避坑分享文章标签： GPTQ Auto-GPTQ Transformers

于 2024-10-09 14:18:03 首次发布

本文链接：https://blog.csdn.net/weixin_42426841/article/details/142785133

版权

AIGC 同时被 2 个专栏收录

37 篇文章 1 订阅

订阅专栏

经验及避坑分享

37 篇文章 1 订阅

订阅专栏

这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。

值得注意的是，这个问题很有可能是因为安装不正确，所以 GPTQ 无法正确使用 GPU 进行推理，也就是说无法进行加速，即便 print(model.device) 显示为 “cuda”。类似的问题见 Is This Inference Speed Slow? #130/ CUDA extension not installed #694。

这个问题是普遍存在的，当你直接使用 pip install auto-gptq 进行安装时，可能就会出现。

你可以通过以下命令检查已安装的版本：

pip list | grep auto-gptq

如果发现之前安装的版本不带 cuda 标识，卸载它，从源码重新进行安装（推理速度将提升为原来的 15 倍以上）。

如果存在 cuda 标识，那么应该去检查代码的参数是否正确。

pip uninstall auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ.git && cd AutoGPTQ

# 以下两种方式任选一种进行安装，经测试均有效
pip install -vvv --no-build-isolation -e .
# >> Successfully installed auto-gptq-0.8.0.dev0+cu121

python setup.py install
# >> Finished processing dependencies for auto-gptq==0.8.0.dev0+cu121