阿里QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

【导读】 仅用32B,就击败o1-mini追平671B满血版DeepSeek-R1!阿里深夜重磅发布的QwQ-32B,再次让全球开发者陷入狂欢:消费级显卡就能跑,还一下子干到推理模型天花板!

凌晨,阿里重磅开源全球最顶尖AI模型——通义千问QwQ-32B推理模型。

它仅用320亿参数,便与目前公认的开源最强6710亿参数的满血版DeepSeek-R1(370亿被激活)相媲美。

甚至,QwQ-32B在多项基准测试中全面超越o1-mini。

更令人兴奋的是,任何人能够直接在搭载消费级显卡的电脑或者Mac上体验满血版性能。(终于,我们的5090D派上用场了

左右滑动查看

更有开发者惊呼:AI模型彻底进入全民普及阶段!

如此来看,QwQ-32B简直堪称「推理能力天花板」与「实用性典范」的完美结合。

苹果机器学习研究员Awni Hannun用搭载MLX架构的M4 Max笔记本去跑QwQ-32B,结果发现运行非常流畅。

如下是在8k token上的长思维过程:

已经是上上代旗舰的3090 Ti,跑起模型来也非常之快——输出速度可达30+token/s。

目前,阿里以宽松的Apache2.0协议将QwQ-32B全面开源,全球开发者与企业均可免费下载、商用。

魔搭社区:

https://modelscope.cn/models/Qwen/QwQ-32B

Hugging Face:

https://huggingface.co/Qwen/QwQ-32B

当然了,所有人皆可通过通义APP免费体验最新的千问QwQ-32B模型,开启方式——Qwen2.5 Plus+Thinking(QwQ)。

体验地址:

https://chat.qwen.ai/?models=Qwen2.5-Plus


开源新王诞生,32B媲美DeepSeek-R1

QwQ-32B到底有多强?我们用数据来说话——

在数学AIME 2024评测集,以及评估代码LiveCodeBenc基准上,QwQ-32B均与DeepSeek-R1旗鼓相当。

而且,其性能远超o1-mini,甚至是相同尺寸基于Qwen系列蒸馏出的R1模型。

在LeCun领衔的「最难LLMs评测榜」LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由UC伯克利等提出的评估准确调用函数或工具方面的BFCL测试中,QwQ-32B得分均超越了DeepSeek- R1。

总的来说,QwQ-32B在数学、编程、通用能力方面取得了领先优势。

正是通过RL的Scaling,QwQ-32B才能实现能与DeepSeek-R1相匹敌的性能。

艾伦人工智能研究所大佬Nathan Lambert发自内心地赞叹:「QwQ-32B是给RL纯粹主义者最好的礼物。」

大佬开始仔细研读阿里放出的官方材料,并且敲桌板表示:我们需要更多论文!

接下来,是对QwQ-32B的最新实测。

我们已经部署在电脑里了

首先,来一段难度不低的数学题。

n个点在一个圆中,点出现在圆中的位置是随机的,求这些点出现在同一个半圆内的概率。

QwQ-32B在经过一大长串的思考之后,给出了正确答案。

同一道题,我们也在本地部署的Q4量化模型上进行了验证。

虽然因为没优化本地环境导致输出较慢,但QwQ-32B依然一次就做对了。

而OpenAI o3-mini-high可能觉得这道题非常简单,只思考了几秒,就开始作答。

最后,果不其然答错了。

上下滑动查看

接下来是一道微积分,看它能不能解决高等数学问题。

可以看出,不管是本地部署的还是线上的QwQ-32B,都有着逻辑严谨、步骤清晰的解题过程。

从明确目标到巧妙变量代换u = xe^x,再到逐步推导和结果验证,成功将复杂积分转化为简单的对数形式,结果完全正确!

同样的提示给到蒸馏版DeepSeek-R1-32B。

可以看到,它在经过了漫长的思考之后,并没有做对。

而最有趣的,还得是OpenAI o1。

它不仅答案不对,而且两次都只说了个思路,剩下的……你自己去解吧。

再上一道推理题。

一群人开舞会,每人头上都戴着一顶帽子帽子只有黑白两种,黑的至少有一顶。每个人都能看到其它人帽子的颜色,却看不到自己的主持人。先让大家看看别人头上戴的是什么帽子,然后关灯,如果有人认为自己戴的是黑帽子就打自己一个耳光。第一次关灯,没有声音于是再开灯,大家再看一遍,关灯时仍然鸦雀无声。一直到第三次关灯,才有劈劈啪啪打耳光的声音响起。问有多少人戴着黑帽子?

在思考过程中,QwQ-32B进行了逻辑严密的推断。

上下滑动查看

最终,它给出了正确答案:3人戴着黑帽子。

本地模型同样回答正确。

而在实测过QwQ-32B的写作能力后,我们忍不住赞叹:国内的大模型中,又出了一个思想和文笔俱佳的文科生!

此前,DeepSeek-R1仿《过秦论》的风格写出的《过美利坚论》技惊四座,文采斐然。

现在让QwQ-32B接受同样的考验。

可以看到,它首先分析了贾谊《过秦论》的特点——多用排比、对仗,气势磅礴,语言犀利。然后想到,自己需要考虑如何将美国的历史事件与《过秦论》的结构对应起来。

难点就在于,要用文言文准确表达一些现代概念,还要保证论点有逻辑性、层层递进。

一番思考之后,QwQ-32B给出的回答果然精彩,文采丝毫不输DeepSeek-R1。

相比之下,用于技术验证的蒸馏版DeepSeek-R1-32B,在文采上就要稍逊一筹了。

另一个DeepSeek-R1惊艳全网的「续写红楼梦后八十回」,我们也把同样的题交给了QwQ-32B,让它续写红楼梦的第八十一回。

它在思考过程中,考虑到自己需要延续前作细腻的描写、复杂的人物关系和隐喻,还要回应埋下的伏笔,比如贾府的衰落、宝黛的爱情悲剧等。

甚至它还分析出,自己还要表现出原著的悲剧色彩和深刻的批判;如果要引入新角色或事件,就必须自然融入现有框架,不能突兀。

经过这番思考后,它列出了第八十一回的故事梗概,看起来很像那么回事。

而按照这个梗概续写的正文框架,虽然仍不及原作文笔,但已不无可取之处。

上下滑动查看

无需集群,笔记本都能跑

众所周知,满血版DeepSeek-R1非常强大,但671B参数量所带来的庞大体积,使得它在本地部署起来十分吃力。

Hugging Face工程师Matthew Carrigan的部署过程,就是一个很好的参考。

想要在GPU上实现720GB(Q8量化)的显存,花费可能要10万美元以上。

当然,也可以另辟蹊径地使用CPU进行部署,只不过生成的速度会慢很多。此时,需要24条32GB的内存才能装下。

即便是Q4量化的版本DeepSeek-R1-Q4_K_M,也得需要404GB,仍然不小。

以谷歌开发者专家、UCL计算机系博士生Xihan Li的部署实操为例。

除了模型参数占用的内存+显存空间(404GB)以外,实际运行时还需额外预留一些内存(显存)空间用于上下文缓存(总计约500GB)。

在4×24GB显卡(RTX 4090)和4×96GB内存配置下,DeepSeek-R1-Q4_K_M的短文本生成的速度只有2-4 token/秒,长文本生成时速度会降至1-2token/秒。基本不可用。

相比之下,QwQ-32B本地部署则友好的多,消费级GPU单卡就能轻松部署,而且速度飞起!

比如,在Hugging Face上开源的QwQ-32B版本,以Q4量化精度为例,大小不到20GB。

不只是4-bit量化的版本,Hugging Face上还有从2位一直到8位不同的版本,最小仅需不到13GB,将本地部署的难度直接拉到最低!普通的办公电脑都能运行得起来。

本地部署后,加载与运行也是相当的容易,十几行代码就能完成模型加载、处理问题并生成答案。

Ollama也上线了Q4版本的QwQ-32B模型,安装Ollama后只需复制ollama run qwq到终端,即可体验,简直没有门槛。

Nous Research的常驻研究员N8 Programs在X上称赞QwQ-32B真是一个令人难以置信的进步。

他展示的是前沿推理模型在LiveBench上的得分(下图)——LiveBench是一个全面的在线评估测试,覆盖了广泛的领域(并且通常与实际情况相符)。

可以看到,QwQ-32B的得分介于R1和o3-mini之间,但成本却只有它们的十分之一。

强化学习「炼丹」,小模型也能逆袭

DeepSeek爆火之后,强化学习再次回到聚光灯之下,成为提升大模型/推理模型的关键钥匙。

QwQ-32B成功的核心秘诀,便在于阿里云团队开创性运用了大规模强化学习技术。

不过,与传统方法不同的是,他们采用了多阶段RL训练策略。

在初始阶段,基于冷启动数据,针对数学、编程、通用任务上,进行了强化学习训练。

相较于传统的奖励模型,团队创新性通过校验答案正确性(数学任务)和代码执行测试(编程任务)提供反馈,确保模型逐步「进化」。

在RL Scaling过程中,随着训练轮次推进,模型在数学、编程两个领域的性能持续提升。

在第二阶段,研究人员又针对通用能力进行了RL训练,主要使用通用奖励模型和一些基于规则的验证器进行训练。

实验显示,通过少量步骤的通用 RL,可以提升QwQ-32B的通用能力,最关键的是,其数学、编程性能没有显著下降。

QwQ-32B仅在320亿参数规模下,推理能力直逼DeepSeek-R,恰恰验证了「大规模强化学习+强大基座模型」是通往AGI的关键路径。

此外,QwQ-32B不只是一个推理模型,还集成了先进的Agent相关能力。不仅在使用工具时批判性思考,还能根据环境反馈动态调整策略。

下一步,阿里还将继续探索智能体与强化学习的深度融合,目标直指长时推理,最终实现AGI。

开源先锋,引领全球AI新格局

这次QwQ-32B满血版开源,绝不是个例,而是阿里云开源战略中的一个环节。

在全球人工智能浪潮席卷之下,开源早已成为推动技术创新的重要引擎。

作为国内最早开源自研大模型的「大厂」,阿里云也是全球唯一一家积极研发先进AI模型,且全方位开源的云计算厂商。

自2023年8月以来,通义系列累计推出了从Qwen、Qwen1.5、Qwen2到Qwen2.5数十款大模型,覆盖5亿到千亿级别的参数规模,并开源了超200款模型,支持29种语言。

这一壮举,标志着阿里云在业界率先实现了「全尺寸、全模态、多场景」的开源。

开源的Qwen系列凭借卓越的性能,数次登顶国内外权威榜单,还多次冲上HuggingFace、Github热榜,成为开发者心中的「爆款」。

2024年,仅Qwen2.5-1.5B一款模型就占据了HuggingFace全球模型下载量的26.6%,位列第一。

才刚刚开源的QwQ-32B,就已经有众多来自不同国家、说着不同语言的的开发者,在第一时间都直接用上了,而且好评如潮。

左右滑动查看

我们都知道,开源的真谛在于,众人拾柴火焰高。

目前,Qwen衍生模型数量突破10万,远超Llama系列,成为全球最大的生成式语言模型族群。

阿里云的开源战略不仅体现在技术输出,更在于推动普惠AI的初心——让中小企业和开发者能够以最低成本、更快速度用上AI,加速大模型应用落地。

另外,通过魔搭ModelScope社区,阿里云还联合1000万开发者,打造出中国最大的AI开源生态。

阿里云坚信,开源是推动技术创新的关键。

通义千问系列的开源,不仅仅是一场技术狂欢,更是一次生态革命。从技术突破到生态赋能,他们正用实际行动诠释了技术普惠的深刻内涵。

正如其愿景所言,通过开源与合作,推动中国大模型生态的繁荣,助力全球AI技术迈向新高度。

在这条路上,通义千问无疑成为一颗耀眼的明星,照亮了AI的未来。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
<think>嗯,用户想了解如何部署qwq-32b模型到VLLM平台上。首先,我需要回忆一下VLLM的基本知识。VLLM是一个高效推理和部署框架,支持大规模语言模型,特别是优化了自回归模型的推理速度。那部署模型的一般步骤是什么呢?通常需要安装环境、下载模型、配置参数、启动服务。 接下来,用户提到的qwq-32b模型,我需要确认是否有相关的引用信息。查看用户提供的引用内容,引用[1]提到了模型下载的路径,引用[2]和[3]则涉及部署中的注意事项,比如量化版本和tokenizer的问题。特别是引用[3]提到需要修改tokenizer_config.json文件来解决输出问题,这可能是一个关键步骤。 首先,安装VLLM。用户可能需要安装最新版本,使用pip命令。然后,下载模型,根据引用[1]的路径,使用modelscope或者git lfs下载。需要注意模型文件的大小,引用[2]提到量化版本可能更适合消费级显卡,比如4bit的20G版本,这可能影响用户的选择。 然后配置环境,可能需要设置CUDA环境变量。启动服务时,使用vllm的命令行工具,指定模型路径、tensor并行数等参数。如果遇到不输出<think>的问题,引用[3]的解决方法是修改tokenizer配置文件,删除相关token,这需要用户找到对应的json文件进行调整。 还需要考虑硬件要求,比如GPU显存是否足够。如果用户使用消费级显卡,可能需要量化模型,如引用[2]提到的。此外,部署后如何测试服务,比如使用curl或Python客户端发送请求,验证是否正常工作。 可能用户遇到的问题包括模型路径错误、显存不足、tokenizer配置问题等,需要逐一排查。总结步骤应该是:安装依赖→下载模型→调整配置→启动服务→验证测试。同时,提醒用户注意量化版本的选择和可能的配置调整,确保部署顺利。</think>### 分步教程:使用vLLM部署QwQ-32B模型 #### 一、环境准备 1. 安装CUDA驱动 确保显卡驱动支持CUDA 11.8+,通过命令验证: ```bash nvidia-smi ``` 2. 创建虚拟环境(推荐) ```bash conda create -n vllm python=3.9 conda activate vllm ``` #### 二、模型下载 1. 通过ModelScope获取完整模型(需约60GB显存): ```bash pip install modelscope python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('Qwen/QwQ-32B', cache_dir='./QwQ-32B')" [^1] ``` 2. (可选)下载4bit量化版本(约20GB): ```bash ollama pull QwQ-32B:4bit ``` #### 三、vLLM安装与配置 1. 安装最新版vLLM: ```bash pip install vllm ``` 2. 修改tokenizer配置(解决不输出<think>问题): ```bash vim ./QwQ-32B/tokenizer_config.json # 删除"<think>"相关配置项[^3] ``` #### 四、启动推理服务 1. 基础启动命令(需A100 80G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model ./QwQ-32B \ --tensor-parallel-size 2 \ --gpu-memory-utilization 0.95 ``` 2. 消费级显卡启动(如RTX 3090 24G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model QwQ-32B:4bit \ --quantization awq \ --dtype half \ --tensor-parallel-size 2 ``` #### 五、服务验证 1. Python客户端测试: ```python from openai import OpenAI client = OpenAI(base_url="http://localhost:8000/v1") response = client.chat.completions.create( model="QwQ-32B", messages=[{"role": "user", "content": "解释量子纠缠"}] ) print(response.choices[0].message.content) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值