智谱发布全新GLM-Z1系列推理模型,包含了开源模型和API。其实一共有六款,我们这里主要介绍四款,两款基座模型,两款推理模型。
GLM-4-9B-0414 = GLM-4-FLASH-250414
GLM-4-32B-0414 = GLM-4-AIR-250414
GLM-Z1-32B-0414 = GLM-Z1-AIR
GLM-Z1-9B-0414 = GLM-Z1-FLASH
-
新的基座模型
GLM-4-32B-0414(GLM-4-AIR-250414)指标评测。GLM-4-32B-0414 在工程代码、Artifacts 生成、函数调用、搜索问答及报告撰写等任务上均表现出色,部分 Benchmark 指标已接近甚至超越 GPT-4o、DeepSeek-V3-0324(671B)等更大模型的水平。但价格便宜快10倍。
-
GLM-4-AIR前端代码能力展示
-
旗舰推理模型
GLM-Z1-32B-0414(GLM-Z1-AIR)。该模型在 GLM-4-32B-0414 的基础上,采用了冷启动与扩展强化学习策略,并针对数学、代码、逻辑等关键任务进行了深度优化训练。与基础模型相比,GLM-Z1-32B-0414 的数理能力和复杂问题解决能力得到显著增强。此外,训练中整合了基于对战排序反馈的通用强化学习技术,有效提升了模型的通用能力。
在部分任务上,GLM-Z1-32B-0414 凭借 32B 参数,其性能已能与拥有 671B 参数的 DeepSeek-R1 相媲美。通过在 AIME 24/25、LiveCodeBench、GPQA 等基准测试中的评估,GLM-Z1-32B-0414 展现了较强的数理推理能力,能够支持解决更广泛复杂任务。
-
小型免费的推理模型
GLM-Z1-9B-0414(GLM-Z1-FLASH) 是一个惊喜。我们沿用了上述一系列技术,训练了一个 9B 的小尺寸模型。虽然参数量更少,GLM-Z1-9B-0414 在数学推理及通用任务上依然表现出色,整体性能已跻身同尺寸开源模型的领先水平。特别是在资源受限的场景下,该模型可以很好地在效率与效果之间取得平衡,为需要轻量化部署的用户提供强有力的选择。
这个模型推测应该是GLM-4-9B-0414 (GLM-4-FLASH-250414)训练的推理模型,模型参数类似,价格都是免费。
-
开源推理模型对比
-
总结
GLM-4-AIR以及GLM-Z1-AIR能力与性价比惊艳。GLM-Z1-FLASH是目前最好的免费推理模型。Deepseek R1的太笨重,优势已经不如当初明显。