在经历了一个月的相对沉寂后,Qwen系列模型以雷霆之势重返开源AI舞台中央,为波澜壮阔的技术竞赛注入新的活力。与此同时,行业标准与创新中心(CAISI)发布的最新评估报告引发了关于模型性能度量的激烈讨论,而GPT-OSS模型的持续进化则展现了开放生态系统的强大生命力。本期月报将深入剖析这些关键动态,为读者呈现开源AI领域的最新图景与发展趋势。
【免费下载链接】BFS-Prover-V2-32B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/BFS-Prover-V2-32B
行业标准与评估:CAISI报告引发的技术度量之争
本月最具争议性的事件无疑是CAISI发布的人工智能模型评估报告。该报告对DeepSeek 3.1模型与主流闭源模型进行了全面对比,但其公布的部分评估结果与社区普遍认可的数据存在显著差异。具体而言,在MMLU-Pro、GPQA和HLE等基准测试中,CAISI的评估结果与DeepSeek官方公布的数据较为接近,均处于正常的误差范围内。然而,在SWE-bench Verified这一关键编程能力测试中,两者的差距却异常悬殊。
深入探究其原因,我们发现问题的核心在于基准测试所使用的" harness "(即模型运行的软件框架)存在缺陷。正如Epoch AI在其SWE-bench分析报告中所指出的,对于需要智能体参与的复杂基准测试,harness的设计与模型本身同样重要,甚至可能成为决定测试结果的关键因素。这一发现具有重要意义,因为SWE-bench Verified目前已成为衡量模型高级推理能力的核心指标之一,包括Anthropic在内的多家机构在推广其Claude模型时均将该指标作为重要宣传点。因此,CAISI报告可能在无意间低估了DeepSeek模型在这一关键维度的实际能力。
报告中另一个引人注目的部分是关于HuggingFace模型累计下载量的统计图表。有趣的是,CAISI展示的数据(左图)与我们在atomproject.ai平台上追踪的结果(中图、右图)存在显著差异,而这两者又都与HuggingFace官方公布的数据不尽相同。这种数据分歧引发了业界对模型流行度度量标准的广泛讨论。
造成这种差异的主要原因在于数据选取与清洗方法的不同。在ATOM Project中,我们采用了更为严格的筛选标准:只统计ChatGPT发布之后推出的大型语言模型(LLM)。这一做法排除了像GPT-2这样的早期模型——正是这类模型的存在使得OpenAI在CAISI的统计中占据了明显优势。同时,我们也排除了BERT类模型和SigLIP等视觉Transformer模型,这些模型在Google的下载量统计中占据了主导地位。
此外,我们还对每日下载量数据进行了异常值过滤处理。以Qwen 2.5 1.5B为例,作为史上下载量最高的模型之一,其单日下载量曾出现过超过1000万次的极端异常值,这种情况会严重扭曲整体统计结果。虽然所有机构都会面临类似的异常数据问题,但处理方式的不同导致了最终结果的显著差异。值得注意的是,我们的统计中还排除了FP8、MLX或GGUF等量化版本,因为这些变体可能会进一步扭曲原始模型的真实受欢迎程度。
GPT-OSS的崛起:开放模型生态系统的新势力
在CAISI报告引发行业热议的同时,GPT-OSS模型的最新进展同样值得关注。这款由OpenAI推出的开源模型在发布初期曾因架构选择(如创新的4-point precision技术)和复杂的工具使用设计(每个功能类别提供多种工具选项)而面临一些实施挑战。尽管如此,GPT-OSS在工具支持的复杂性方面仍走在了开源模型的前列,展现了OpenAI在技术创新上的前瞻性布局。
自发布以来,GPT-OSS的20B和120B参数版本均取得了令人瞩目的成绩。在过去一个月中,这两个版本的下载量分别达到了560万次和320万次,展现出强劲的市场需求。更令人印象深刻的是,这些模型在多项基准测试中已经超越了Qwen 3 4B和Qwen3-VL-30B-A3B-Instruct等热门模型。我们通过社区脉搏调查获得的反馈也印证了这一点,许多开发者对GPT-OSS的性能表示高度认可。事实上,GPT-OSS已成为我们在新部署的Nvidia DGX-Spark系统上优先测试的模型之一,这也从侧面反映了其在专业领域的影响力。
本月精选模型:技术创新与应用价值的完美融合
granite-4.0-h-small:IBM的混合架构突破
IBM的Granite系列模型一直是我们关注的焦点,而最新发布的granite-4.0-h-small则标志着该系列在模型规模和架构创新上的重大突破。此次发布的模型采用了注意力机制与mamba架构相结合的混合设计,提供了从3B密集型模型到32B-A9B稀疏专家模型(MoE)的完整产品线。经过实际测试,我们对这些模型的性能表现印象深刻——尽管考虑到IBM团队一贯的技术实力,这种出色表现也在情理之中。
具体而言,3B参数版本的Granite模型在性能上与SmolLM3相当,仅在多语言能力和指令跟随准确性方面略逊于Qwen3 4B。值得一提的是,Granite 4.0的输出风格展现出一种令人耳目一新的"非娱乐化"特质,与当前行业中流行的" sloptimized "模型形成鲜明对比。后者往往倾向于使用活泼的语气、大量表情符号,甚至表现出过度迎合的倾向。相比之下,Granite 4.0让人想起早期Mistral模型的稳重风格,这种专业、克制的输出特性在企业应用场景中具有独特优势。
特别值得关注的是,IBM宣布将在今年晚些时候发布专门的推理模型,这显然是受到了Qwen系列成功经验的启发。从技术角度来看,我们从多位模型训练专家处了解到,实现"混合推理"能力——即在生成过程中灵活切换"思考标记"的开启与关闭——会显著增加训练复杂度,可能导致两种模式下的峰值性能都受到影响。IBM较早地在开源模型中引入了这种可通过提示词控制的混合思考机制,这一创新后来被许多其他研究团队所采纳,充分体现了其技术前瞻性。
Qwen3-VL-235B-A22B-Instruct:多模态模型的里程碑式升级
Qwen视觉语言(VL)系列模型的最新更新无疑是本月最受期待的事件之一。此次发布涵盖了从4B、8B参数的小型密集模型到30B-A3B、235B-A22B参数的大型稀疏专家模型(MoE),并同时提供了指令微调版本和推理优化版本。在这些令人印象深刻的新品中,8B参数版本尤其值得关注:与初始发布的8B模型相比,新版本在所有文本基准测试中均实现了全面提升。这一进步不仅展示了Qwen团队的技术实力,也从侧面印证了我们之前关于混合推理挑战的观点——由于8B版本未采用2507刷新机制,其性能提升更凸显了基础架构优化的重要性。对于正在使用Qwen3 8B或仍在依赖Llama3.1 8B的用户而言,这款新模型无疑是一个无需犹豫的升级选择,可以直接作为替代品使用。
GLM-4.6:中国开源模型的快速追赶
智谱AI(Zhipu)发布的GLM-4.6模型代表了中国开源AI领域的最新进展。社区对这款模型的评价非常积极,许多开发者认为其性能已经接近Anthropic的Claude Sonnet甚至Haiku 4.5版本。尽管在处理超长上下文时,GLM-4.6的性能下降幅度比闭源模型更为明显,但这一评价仍然是对中国开源模型快速发展的高度肯定。GLM-4.6的成功再次印证了中国团队在开源AI领域的惊人进步速度,他们正以前所未有的步伐逼近全球领先水平。
Ling-1T:Inclusion AI的规模化突破
Inclusion AI本月展现出了令人瞩目的活跃度,其发布节奏明显加快,呈现出向大型科技公司看齐的态势。与Qwen类似,该团队也开始大力推进模型规模的扩展,最新发布的Ling-1T模型参数规模已突破万亿大关。除了规模提升,Inclusion AI还同步推出了专门的推理版本,并积极探索不同的架构设计和多模态能力。这些举措表明,Inclusion AI正快速成长为开源AI领域的重要参与者,值得业界持续关注。
moondream3-preview:小而美的性能典范
Moondream系列模型早已凭借其"以小博大"的出色表现在社区中建立了良好声誉。最新发布的moondream3-preview版本继续延续了这一传统,采用了混合专家(MoE)架构,总参数规模为90亿,激活参数为20亿。这一设计不仅保持了模型的轻量化特性,还进一步提升了其在各项基准测试中的表现。
moondream3-preview的另一个独特之处在于其创新的开源许可条款。简而言之,该模型允许免费用于个人、研究和大多数商业用途,但禁止在未获得单独授权的情况下提供与M87 Labs付费版本直接竞争的商业服务(例如向第三方销售托管或嵌入式访问服务)。这种许可模式在AI领域相当罕见,它试图在保护开发者利益和促进社区创新之间找到平衡点,为开源模型的商业化路径探索提供了新的思路。
趋势观察与未来展望
回顾本月的模型发布情况,我们再次看到了Qwen引领下的全面技术革新,同时也见证了中国其他实验室的持续崛起。这种多强并立的局面为开源AI生态系统注入了强劲动力,推动着技术边界的不断拓展。然而,令人遗憾的是,本月没有任何数据集能够达到我们设定的相关性标准。这一现象凸显了开源数据领域的严峻现状——高质量训练数据的获取和共享正面临越来越大的挑战,这可能成为制约未来开源AI发展的关键瓶颈。
展望未来,我们认为开源AI领域将呈现以下几个重要趋势:首先,混合架构设计(如注意力机制与mamba的结合)将成为提升模型效率的关键方向;其次,模型规模的竞赛仍将继续,但效率优化和特定任务性能提升可能会获得更多关注;第三,多模态能力将成为标准配置,视觉-语言模型的应用场景将进一步拓展;最后,开源许可模式的创新可能成为平衡商业利益与社区发展的关键。
在这个快速演进的领域,保持开放、透明的技术交流与合作至关重要。无论是CAISI报告引发的评估标准讨论,还是GPT-OSS展现的技术创新,都反映了开源生态系统的活力与韧性。随着更多参与者的加入和技术的不断突破,我们有理由相信,开源AI将在推动人工智能技术普及、促进技术普惠方面发挥越来越重要的作用。
对于开发者和企业而言,当前的技术环境既充满机遇也面临挑战。选择合适的模型、理解其性能边界、把握技术演进方向,将成为在AI浪潮中保持竞争力的关键。我们将继续密切关注开源AI领域的最新动态,为读者提供及时、深入的分析与洞察,共同见证人工智能技术的革命性发展。
【免费下载链接】BFS-Prover-V2-32B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/BFS-Prover-V2-32B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



