大模型评测【开源篇】Qwen大模型|同样的基座,推理模型Qwq相比常规模型Qwen-instruct,到底哪里更强?

基于同样的基座:qwen2.5-32b-base,qwen官方先后推出了常规模型qwen2.5-32b-instruct(下面简称instruct模型)和推理模型qwq-32b-preview/qwq-32b(下面简称qwq)。众所周知,推理模型擅长推理,我们可以预期qwq在逻辑推理、数学、代码等方面远胜instruct模型,那其他维度呢?

我们接下来通过全方位的评测一探究竟。评测包括8大领域,300多个细分维度。

qwen2.5-32b-instruct

qwq-32b

变化

总分

68.51

77.18

13%

医疗

71.60

76.45

7%

教育

80.02

85.90

7%

金融

71.83

78.33

9%

法律

50.70

60.80

20%

行政公务

64.50

82.20

27%

心理健康

57.75

63.00

9%

推理与数学计算

70.98

85.58

21%

语言与指令遵从

80.73

85.18

6%

更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

公众号:大模型评测EasyLLM

从上表可知:

  • 相比instruct模型,qwq总分提高了13%,十分可观。

  • 最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。

  • “推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于逻辑推理能力。

另外,我们通过对比qwq及其早期preview版本,也能得出类似以上的结论,数据如下:

qwq-32b-preview

qwq-32b

变化

总分

71.43

77.18

8%

医疗

73.54

76.45

4%

教育

83.38

85.90

3%

金融

74.32

78.33

5%

法律

53.57

60.80

13%

行政公务

72.00

82.20

14%

心理健康

59.88

63.00

5%

推理与数学计算

75.80

85.58

13%

语言与指令遵从

78.92

85.18

8%

更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

公众号:大模型评测EasyLLM


关于(公众号)大模型评测EasyLLM:https://easyllm.site

  1. 最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度

  2. 最新——每周更新大模型排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯

  5. 错题本——百万级大模型错题本

  6. 免费——为您的私有模型提供免费的全方位评测服务,欢迎私信

公众号:大模型评测EasyLLM

<think>好的,我现在需要帮助用户解决如何使用vLLM运行QwQ-32B模型的问题。首先,我需要确认用户提到的模型名称是否正确。用户写的是“qwq-32b”,但根据提供的引用,正确的模型名称应该是Qwen2.5-Coder-32B-Instruct,可能用户有拼写错误或者简称。所以需要先指出这一点,避免用户下载错误的模型。 接下来,用户提到使用vLLM来运行这个模型。根据引用[1]中的信息,QwQ-32B的量化版本可能需要特定的配置,比如4bit量化,模型大小约20G。而引用[2]提供了通过ModelScope下载模型的命令,所以需要指导用户正确下载模型到本地目录。 然后,我需要考虑用户的环境配置。vLLM需要特定的依赖,比如PyTorch和CUDA,因此需要确保用户安装了正确版本的这些库。同时,使用conda创建虚拟环境是一个好习惯,可以避免依赖冲突。用户可能需要安装modelscope来下载模型,这部分在引用[2]中已经给出,但需要整合到步骤中。 另外,用户可能不清楚如何编写vLLM的推理代码,所以需要提供一个简单的示例,包括如何加载模型、初始化LLM引擎、生成提示和获取输出。同时,需要注意模型路径是否正确,是否使用了正确的参数,比如tensor_parallel_size如果使用多GPU的话。 还需要提醒用户可能的注意事项,比如硬件要求。虽然引用[1]提到消费级显卡,但32B模型即使量化后可能需要较大的显存,比如20G左右,所以用户需要确保显卡有足够的显存,比如RTX 3090/4090或A10/A100等。 最后,生成相关问题,帮助用户进一步了解模型部署的优化方法和可能的问题。比如如何优化性能,处理内存不足的情况,以及量化相关的知识。 现在需要将这些思考整理成结构化的步骤,确保用户能够逐步跟随操作,同时引用正确的参考资料,避免误导。同时,检查所有命令和代码是否正确,特别是模型名称和路径部分,确保用户不会因为拼写错误而遇到问题。</think>以下是在本地使用vLLM运行Qwen2.5-Coder-32B-Instruct模型的详细步骤(注意正确模型名称为Qwen而非qwq): ### 步骤1:环境准备 ```bash # 创建conda环境(需要提前安装Anaconda/Miniconda) conda create -n vllm_env python=3.10 -y conda activate vllm_env # 安装基础依赖 pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu121 pip install vllm>=0.4.2 pip install modelscope ``` ### 步骤2:下载模型 ```bash # 使用modelscope下载(国内推荐) modelscope download --model 'Qwen/Qwen2.5-Coder-32B-Instruct' \ --local_dir '/path/to/save/model' # 替换为实际存储路径 ``` ### 步骤3:编写推理代码 创建`inference.py`文件: ```python from vllm import LLM, SamplingParams # 初始化模型(根据显存情况选择量化配置) llm = LLM( model="/path/to/save/model", # 替换为实际模型路径 quantization="awq", # 使用AWQ量化[^1] tensor_parallel_size=1 # 单GPU设置为1 ) # 配置生成参数 sampling_params = SamplingParams( temperature=0.7, top_p=0.9, max_tokens=512 ) # 执行推理 prompts = ["用Python实现快速排序算法"] outputs = llm.generate(prompts, sampling_params) # 输出结果 for output in outputs: print("生成结果:\n", output.outputs[0].text) ``` ### 步骤4:运行脚本 ```bash python inference.py ``` ### 注意事项 1. 显存需求:量化后约需20GB显存,建议使用RTX 3090/4090或A10/A100显卡 2. 模型路径:确保本地路径包含`config.json`等模型配置文件 3. 量化选择:支持awq/gptq等量化方式,显存不足时可尝试`dtype="half"`
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值