太强了!阿里深夜开源思维链模型QwQ-32B!比肩671B满血R1~

作者 | 伊风 编辑 | 自动驾驶之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

本文只做学术分享,如有侵权,联系删文

太震撼了。阿里直接扔了一个王炸!

QwQ-32B,一个参数量如此小的小模型,居然追平了671B的DeepSeek-R1??!

这也太卷了,看看他们给的数据,真的给人看麻了:

cc118d79ae3626fd4feea9895563670c.png

这个模型到底小到什么概念呢?评论区网友在用了一台配置M4 Max芯片的苹果电脑就跑起来了。

网友本人直呼震撼的程度!

这里也推荐下自动驾驶之心打磨的《多模态大模型与自动驾驶实战课程》,通用大模型训练(算法原理&微调&强化学习RLHF)、自动驾驶多模态大模型一栈式全搞定!

拼团大额优惠!欢迎加入学习~

图片

小模型还有个震撼而实用的优点,价格真的低。API成本才R1的十分之一!

683b35ae647b74871d8cae6a620569c1.png

一向大方的通义这次又是上线即开源,评论区一看到是Apache 2.0许可证,就开始感谢大自然的馈赠了。这是官方给的一系列链接:

博客:

https://qwenlm.github.io/blog/qwq-32b

HF:

https://huggingface.co/Qwen/QwQ-32B

Qwen 聊天室(网页试用):

https://chat.qwen.ai

模型部署工具ollama也是连夜更新,紧急上线了QwQ-32B,还艾特了通义的两位大佬表示感谢。

175e9c36ffed4315512d150956e09c2f.png

有趣的是,追踪到Binyuan Hui的推特,发现他的置顶是一张梗图“Goodbye ChatGPT,Hello Qwen Chat”。

0e1cb8eed8ab7ecffd7753d7212c243e.png

国产大模型完全有底气对ChatGPT说一声再见了。还记得GPT-4.5推出时,那种普遍觉得乏味、失望的氛围,人们越来越认识到,传统的那套训练技术玩的“大力出奇迹”似乎已经走向了尽头。

读了QwQ-32B的博客,我们发现:这次又是强化学习(RL)立大功了!

7baef1b365a31a41b17e8b2112aba4ca.png

QwQ-32B的炼成:强化学习还有多少惊喜?

从阿里的技术博客我们能了解到两点:1.强化学习扩展依然是这次性能飞跃的重中之重 2.这个方向还有很长的路能走!

在具体的训练上,通义团队分了两个阶段去做RL训练。

第一阶段,是从冷启动检查点(指模型已经过了冷启动训练阶段,检查点相当于“存档”)开始,实施了一种基于结果奖励的强化学习(RL)扩展方法。

这里有两个突破值得关注:首先,在初期阶段,有特别针对数学和编程任务进行了RL扩展,相当于对强推理比较重要的领域专门“补课”;其次,不同于传统的奖励模型,通义团队采用了一个数学问题的准确性验证器来确保最终解答的正确性,并使用代码执行服务器来评估生成的代码是否能成功通过预定义的测试用例。

然后就看到随着训练的持续,模型性能在数学和编程领域稳定拉升。

第二阶段,是旨在提升通用能力的RL训练。他们在这个过程中,采取的是通用奖励模型的奖励和一些基于规则的验证器。

通义团队说,他们发现:“通过少量步骤的训练,其他一般能力(如指令跟随、人类偏好对齐、智能体性能等)得到了提升,同时数学和编程能力并未出现显著下降。”这句话的分量大家都能懂……大模型训练经常是只能顾一头,没有明显的性能折损大大验证了这个策略的有效性。

通义也在博客写了未来方向:通过这一历程,我们不仅见证了扩展强化学习(RL)的巨大潜力,也认识到了预训练语言模型尚未开发的可能性。

看来新的Scaling Law真的会在后训练阶段了!

685de5f90df37c10205253574f7f374e.png网友实测:本地人工智能时代来临!

一位进行了实测,发现QwQ-32B 在笔记本电脑上运行得相当丝滑。

在这里,它在装有 MLX 的 M4 Max 上运行良好。它的 8k 代币长思考过程的一个片段:

5b6d99ca9c849070bf6cf7e59256c8df.png

另一位网友采用本地部署,推断了一个比较复杂的推理题目:

有两座房子,从左到右依次编号为1到2。 每间房子都住着不同的人。 每所房子都有一个独特的属性,分别代表以下特征:每个人都有一个独特的名字:Arnold, Eric;每个人都拥有独特的汽车型号:ford f150, tesla model 3;人们饲养独特的动物:猫、马。

线索:1. 埃里克在拥有特斯拉 Model 3 的人的正前方左边。养马的人在第一间房子里。

7f03b5d1afc27ea1469bf3130faf4be5.png

QwQ-32B仅用了40s的思考时间就给出了正确答案。

评论区说:这是真正的本地人工智能力量!

127957c409d1cf6a2d391aabd7373514.png

也有人表示:太遗憾了!你们这些人干嘛在奥特曼要开源的时候投票给o3类似模型啊?(另一个选项是手机可跑的端侧模型)

dfb4cb8a3f0307b991b66444ee68e159.png

写道这里不得不吐槽一句,OpenAI的开源是真慢啊,预热了一下又没影了。

3e4d8f9a84787837a64228104c9ae314.png

f965b85a23d3323df788f3ee09cfb8ca.png写在最后:算力不再成为问题

昨天看外媒的报道说,R1带火了消费级显卡,新款游戏芯片RTX 5090被黄牛炒到150%。这是因为DeepSeek的模型不再需要高端AI芯片,普通消费级产品就能满足运行需求。

那么QwQ-32B这波震撼之余,可能带货的就是M4 Max的苹果电脑了。

从最初的庞然大物发展到可以家用,计算机走了几十年的时间。从GPT-3发布后的不到五年中,我们就有了在笔电上能run起来的超强模型。

然后终将有一天,我们会在手机上部署更强悍更轻量的模型。

就像一位网友所说:

哦,我的天哪,现在每个人都会在接下来的两周里讨论QwQ-32B,DeepSeek 也会准备好另一个模型,然后 OpenAI 将别无选择,只能推出 ChatGPT 5,在 AGI 之前这一切都不会停止。

5992f226bc80f76e1ec9ba19a2446aee.png

① 自动驾驶论文辅导来啦

ce67f0584e00a8ed4e137a96e4316b95.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

43809c9d3b8502b8cec65b54479c9f28.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

74bcbada9d4830d234f9b2bc6806a7e2.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

2a06b609d3941a4236dbfb0470fbe011.png

<think>嗯,用户想了解如何部署qwq-32b模型到VLLM平台上。首先,我需要回忆一下VLLM的基本知识。VLLM是一个高效推理和部署框架,支持大规模语言模型,特别是优化了自回归模型的推理速度。那部署模型的一般步骤是什么呢?通常需要安装环境、下载模型、配置参数、启动服务。 接下来,用户提到的qwq-32b模型,我需要确认是否有相关的引用信息。查看用户提供的引用内容,引用[1]提到了模型下载的路径,引用[2]和[3]则涉及部署中的注意事项,比如量化版本和tokenizer的问题。特别是引用[3]提到需要修改tokenizer_config.json文件来解决输出问题,这可能是一个关键步骤。 首先,安装VLLM。用户可能需要安装最新版本,使用pip命令。然后,下载模型,根据引用[1]的路径,使用modelscope或者git lfs下载。需要注意模型文件的大小,引用[2]提到量化版本可能更适合消费级显卡,比如4bit的20G版本,这可能影响用户的选择。 然后配置环境,可能需要设置CUDA环境变量。启动服务时,使用vllm的命令行工具,指定模型路径、tensor并行数等参数。如果遇到不输出<think>的问题,引用[3]的解决方法是修改tokenizer配置文件,删除相关token,这需要用户找到对应的json文件进行调整。 还需要考虑硬件要求,比如GPU显存是否足够。如果用户使用消费级显卡,可能需要量化模型,如引用[2]提到的。此外,部署后如何测试服务,比如使用curl或Python客户端发送请求,验证是否正常工作。 可能用户遇到的问题包括模型路径错误、显存不足、tokenizer配置问题等,需要逐一排查。总结步骤应该是:安装依赖→下载模型→调整配置→启动服务→验证测试。同时,提醒用户注意量化版本的选择和可能的配置调整,确保部署顺利。</think>### 分步教程:使用vLLM部署QwQ-32B模型 #### 一、环境准备 1. 安装CUDA驱动 确保显卡驱动支持CUDA 11.8+,通过命令验证: ```bash nvidia-smi ``` 2. 创建虚拟环境(推荐) ```bash conda create -n vllm python=3.9 conda activate vllm ``` #### 二、模型下载 1. 通过ModelScope获取完整模型(需约60GB显存): ```bash pip install modelscope python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('Qwen/QwQ-32B', cache_dir='./QwQ-32B')" [^1] ``` 2. (可选)下载4bit量化版本(约20GB): ```bash ollama pull QwQ-32B:4bit ``` #### 三、vLLM安装与配置 1. 安装最新版vLLM: ```bash pip install vllm ``` 2. 修改tokenizer配置(解决不输出<think>问题): ```bash vim ./QwQ-32B/tokenizer_config.json # 删除"<think>"相关配置项[^3] ``` #### 四、启动推理服务 1. 基础启动命令(需A100 80G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model ./QwQ-32B \ --tensor-parallel-size 2 \ --gpu-memory-utilization 0.95 ``` 2. 消费级显卡启动(如RTX 3090 24G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model QwQ-32B:4bit \ --quantization awq \ --dtype half \ --tensor-parallel-size 2 ``` #### 五、服务验证 1. Python客户端测试: ```python from openai import OpenAI client = OpenAI(base_url="http://localhost:8000/v1") response = client.chat.completions.create( model="QwQ-32B", messages=[{"role": "user", "content": "解释量子纠缠"}] ) print(response.choices[0].message.content) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值