Qwen3-代码能力非常强悍,0.6B模型竟然比Gemma4B模型还要强

前言

你没看错,千问3(Qwen3)的这次更新不是一个模型,而是一堆模型,Dense模型一共6款,大小从0.6B到32B不等;MoE混合专家模型有两个,30B和235B。

我上手就先用235B这个旗舰版测试了一下代码性能,用的是这个Prompt:

Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what’s going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.

目的是生成25个粒子在圆柱形的真空环境里弹跳,小球每个使用不同颜色,显示轨迹,同时还要附加一个外部的球形容器,以及缓慢的运动和视角变化,是一个很复杂的Prompt,因为它涉及到了很多方面的知识需求。

这是我用Qwen3-235B-A22B的实现效果,可以说非常好,跟在编程领域的隐形王者Claude3.5不相上下。

同时我也用30B的MoE模型又测试了一下,效果也出乎意料的不错,虽然不如235B,但是仔细看的话,基本上也满足了Prompt的要求。

从Github上公布的模型性能也可见一斑,尤其是 235B-MoE,已经在数学推理和算法竞赛级别的编程任务中领先优势很明显。

现在Qwen Chat已经可以免费使用了,我建议你也可以试试看,可以用30B和235B的MoE模型和32B的Dense模型。

图片

更多的资源也可以从这里面,比如Github,Huggingface等。

Qwen Chat: https://chat.qwen.ai/

Github: https://github.com/QwenLM/Qwen3

HuggingFace:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

魔搭:https://modelscope.cn/collections/Qwen3-9743180bdc6b48

Kaggle: https://www.kaggle.com/models/qwen-lm/qwen-3

我这次分别尝试了本地部署和云端Qwen Chat两种方式来用千问3,本地部署主要是针对与小于等于30B的模型,对于旗舰版235B就只能用云端了。

这次的一大亮点就是混合推理模型,也就是说推理模式是可以手动开启和关闭的,千问3的所有模型都原生支持这个特性,最小的0.6B模型也不例外,部署起来非常的简单,这是用huggingface提供的transformers库部署的千问3。

图片

这是我用的0.6B小模型做的测试,问题是:请简要的描述下大语言模型。

第一个是开启了推理的回答,可以看到enable_thinking=Ture(第一个红框),第二个红框内的内容包含了两部分内容,分别是thinking content和content,代表了推理思考内容和最终的输出内容。

你仔细看的话,即使是这个最小的模型,推理逻辑也很完整,输出的答案也非常不错。

图片

下面这个就是手动关闭推理模式后的回答,可以看到thinking content那里是空的,答案也不差。

图片

这种模式的好处非常大,因为对于一些非推理型的问题,比如简单的数学题1+1=?,开启推理模式后反而有可能会失败。

这个时候,只需要对于题目加一层筛选模式,然后自动的开启或者关闭推理模型,不仅可以加速输出,同时还能省不少的token,真降本增效!这个特性暂时我只在闭源的Claude-3.7上看到过,在开源模型中还是头一号!

这次大版本更新把它大模型源神的称号坐实了,毕竟一次性放8个模型可谓是空前绝后,特别是这次的更新几乎把所有的大模型要素都集齐了。

1全尺寸开源且同级别领先:从0.6B 到235B,涵盖了端侧超小模型到B端友好的模型尺寸。

0.6B的推理模型,还是可以任意切换是否开启推理的模型,包括手机在内的很多端侧模型估计迎来一大波更新。

图片

对第一个测试,我用DeepSeek R1也试了下,671B的模型效果比起235B的千问3差点意思,不过现在才R1,提升空间也很大,毕竟是中国的开源大模型双子星。

小型MoE模型,总大小30B激活参数3B。32B的Dense模型非常的符合直觉,毕竟Qwen家族的32B模型在业内的威望有目共睹,不管是QwQ的32B模型在Marketing和Finance领域力压Google,OpenAI和Anthropic的一众大模型。

图片

还是DeepSeek严选的蒸馏模型,千问系列的32B跟Llama的70B性能不相上下,但是模型足足小了一倍还多,可以看得出Dense模型在“智能密度”这个维度上的得分高的吓人。

图片

而这次的30B的MoE模型更是有讲究的,可以说是目前最强的可以在消费级显卡上部署的MoE大模型,因为就拿qwq这个模型来举例,32b的模型在经过4bit量化后,显存占用20GB,而英伟达的90系显卡正好有24GB显存,一块显卡就能正好让模型跑起来,再加上性能足够,基本上可以让很多想要本地部署的个人和小型企业都满足需求。

图片

千问3的性能可以说是全尺寸都很强,我看到@刘聪NLP测试了这么一个问题:生蚝煮熟了叫什么?

30B以上的大模型都能答得对,对他们没什么难度,我试了下本地部署的0.6B模型,照样也可以做对。

图片

而最小尺寸的deepseek r1 1.5b蒸馏版,答案不太对。

图片

而同样是开源的Gemma 4B,给出的回答更是让人哭笑不得。

图片

可以说,不管是百B以上的大模型,还是可以部署在端侧的超小模型,千问3表现出来的效果都非常的好。

并且从官方介绍可以看到,千问3还同时对于Agent和MCP能力做了优化,再加上其可以本地部署的最大优势,可以说是现在大模型市场最稀缺的能力。

性能好,型号多,所以我宣布,千问3才是真正的源神!

最后的最后

感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值