原因 使用gptq量化的模型,比如qwen-1.5-14B,对于auto-gptq 和optimum两个依赖有着版本要求。这里实验出的一个可行组合是: auto-gptq==0.4.2 optimum==1.13.1 transformers==4.38.1 #在model card上写的是>=4.37.0 在这里稍微记录一下