智谱发布国内最快的推理模型!效果比肩 DeepSeek R1,速度快 8 倍,高达 200 Tokens/s

   我发现,AI 领域的竞争越来越多元化了。

以前,大家往往比拼模型的参数规模、模型效果;后来,大家开始卷价格;就在今天,智谱 AI 这位老哥,突然开源了一个速度起飞的推理模型,直接把“速度”这张牌打成了王炸。

有多快呢?

推理速度最高达到 200 Tokens/s,是 DeepSeek-R1 常规速度的 8 倍。

这还没完。

这只是智谱刚推出的推理模型 GLM-Z1-AirX,还有一个高性价比版本 GLM-Z1-Air,不仅在效果上硬刚 671B 参数的 DeepSeek-R1,而且价格卷到了后者的 1/30。

感觉空气中都弥漫着一股“内卷终结者”的气息。

GLM-Z1-Air 效果表现

先来看一下 GLM-Z1-Air 在一系列学术测试基准上的效果表现。

在 AIME 24/25 (数学推理)、LiveCodeBench (代码生成)、GPQA (科学问答) 这些硬核基准测试中,GLM-Z1-32B 基本上做到了对 671B 参数量 DeepSeek-R1 的效果打平。考虑到两者参数量级的巨大差异,这表现堪称不错了。

此外,我注意到,GLM-Z1-32B 与同等参数量的 QwQ-32B 模型相比,其在综合工具调用、科学测试基准上表现更优,其他测试基准上整体持平。

根据官方的描述,这个模型通过冷启动和扩展强化学习,专门针对数学、代码、逻辑推理等任务进行了深度优化。智谱还引入了基于“对战排序反馈”(Battle Rank Feedback)的通用强化学习,让它在解决复杂问题上的能力有了显著提升。

一句话总结——

非常值得将其拿来上手实测一下。

一手实测

先来一道物理场景推理的题目开开胃。

(科学题):密闭房间内有冰块悬浮于水面上的杯子,室温恒为 25°C。当冰块完全融化后,水面高度如何变化?若冰块中含一枚铁钉,结果是否不同?

Z1-Air 的结果——

手拿把掐,轻松通过。

这两天,夕小瑶 family 群里对一种类型的题讨论尤其激烈,就是设定几组规则,推理出一组数字,当然数字越多推理难度越大,算是一道非常单纯的逻辑题,这里我们来测一下。

甲、乙、丙三个海盗发现了一个巨大的保险柜,可惜保险柜上挂着一把密码锁。锁的密码由 5 个不同的数字组成。于是,他们胡乱猜了起来(如下所示)。他们每人都猜对了位置不相邻的两个数。根据 3 个已知条件,推断出密码是多少!

猜测:

甲:8 4 2 6 1

乙:2 6 0 4 8

丙:4 9 2 8 0

Z1-Air 的结果——

我顺便测了下 R1——

我自己尝试着算了算,一分钟后果断放弃看答案。。给两个模型都是只有一次机会,Z1-Air 正确,R1 却翻车了。这是我没想到的。

接着,我准备了一道陷阱题——

五斤花生可以榨四两油,现在有十斤花生,可以榨的花生有多少?

不出意外,它没能绕开。但我不死心试了几乎所有主流在用的模型,包括 R1、2.5 Pro、grok,这道题全挂,暂且划到对于 reasoning 类模型来说属于超纲吧。

此外需要提一嘴,这个 GLM-Z1-Air 模型不仅开源,而且在智谱 AI 开放平台中,分成了三个版本可供 API 调用:

  1. GLM-Z1-Air:高性价比版本,价格只有 DeepSeek-R1 的 1/30

  2. GLM-Z1-AirX:速度天花板版本,虽然价格更贵,但 200 Tokens/s 的推理速度很难让人拒绝,而且提速后依然比 DeepSeek-R1 便宜不少。

  3. GLM-Z1-Flash:免费版本。推理模型都发布了免费版本的 API,这个我确实没想到。

老规矩,贴一下传送门:

https://www.bigmodel.cn/dev/api/normal-model/glm-4

智谱 GLM-4-32B-0414 全家桶

除了上面的推理模型 GLM-Z1-Air 系列之外,其实智谱这次还一口气开源了包括对基座 Chat 模型以及前段时间发布不久的沉思模型,且分了 9B 和 32B 两个尺寸。

全家桶细节可以见下表——

先来说说 GLM-4-32B-0414 这个对话模型。

虽然 GLM-4-32B-0414 不是推理模型,但智谱不仅给它喂了 15T 的高质量数据进行预训练,而且还塞了不少推理类的合成数据。 因此,这个 GLM-4-32B 模型的代码生成能力得到了不错的改善,据说能够直接搞定更复杂的单文件代码生成了。

从学术测试基准来看,GLM-4-32B-0414(蓝色柱子)在指令遵循 (IFEval)、综合工具调用 (BFCL-Overall)、智能体工具调用 (TAU-Bench)、搜索问答 (SimpleQA/HotpotQA) 等多个维度上,都表现出了非常强的竞争力,部分指标甚至超越了 DeepSeek-R1 和 GPT-4o-1120。

比如官方贴了一个测试 case,让它设计一个移动端机器学习平台——

提示词:给我设计一个移动端机器学习平台的 UI,其中要包括训练任务,存储管理,和个人统计界面。个人统计界面要用图表展示用户过去一段时间的各类资源使用情况。使用 Tailwind CSS 来美化页面,把这 3 个手机界面平铺展示到一个 HTML 页面中

代码运行结果——

这个完成度和页面逻辑的合理性,实在挑不出什么毛病。

再或者,让其制作 SVG 图片——

提示词:用 svg 展示一个 LLM 的训练流程

这个 SVG 的可用性也挺高的,我对比了一下 DeepSeek-R1 的同提示词输出——

虽然 R1 在流程图的每个节点做了更为详细的注释,这点好评,但可惜的是连线的时候崩了。

再来看看沉思模型 GLM-Z1-Rumination-32B。

这个模型,源自智谱对 Deep Research 策略训练的探索。简单来说,就是赋予模型一种进行深度研究的能力。

官方给了一个很形象的类比:

  • 普通搜索 = 本科生,能快速找到资料。

  • 带反思的推理模型(类似 Z1) = 硕士生,能对信息进行整理和初步分析,给出几百上千字的概述。

  • 沉思模型(Rumination) = 博士生,具备深度研究能力,能独立思考、查阅文献、整合分析,最终输出一份非常详尽、甚至上万字的报告。

这个模型的核心特点是“沉思”(Rumination)。它不像普通模型那样追求快速回答,而是愿意花费更长的时间(文档里提到可能长达 5 分钟甚至更久)进行深度思考,来解决那些更开放、更复杂的问题。

它能在思考过程中主动结合搜索工具处理复杂任务,利用多种规则型奖励来指导和扩展端到端的强化学习训练。支持一个完整的 “自主提问 → 搜索信息 → 构建分析 → 完成任务” 的流程。

这种模型在需要深度研究、复杂内容生成、长篇报告撰写等场景下,潜力巨大。

以上就是 Z1-Rumination 解决一个开放式研究问题的例子:撰写关于北京和杭州 AI 发展对比,并分析国外城市 AI 治理案例,规划未来发展。这种任务,显然需要模型具备超越简单问答的深度思考和信息整合能力。

这里我真的要强调一嘴——

包括谷歌、OpenAI 在内,各家都把 DeepResearch 功能藏着掖着,连 API 都不开放,如今智谱却干脆把模型都开源出来了。这个动作非常值得点赞。

而智谱这次开源,一如既往的走 MIT 开源协议,可完全商用。

当然了,除了自行开源部署外,也可以直接在智谱 AI 开放平台调用 API,我整理了一下价格——

只能说,智谱的 API 定价从来不让开发者失望。

彩蛋:z.ai 神级域名上线

智谱这次,还正式启用了全新的全球域名:

z.ai

我截了个图:

从此,全球用户都可以在 z.ai,直接与智谱最新的模型进行交互了。

最后,我想给智谱配合这次新模型 + 新域名发布提出的 Slogan 点个赞——


<think>好的,我现在需要回答用户关于在NVIDIA RTX 4090上使用Ollama运行DeepSeek R1 14B模型的q8量化版本时,输出tokens的大概数量。首先,我需要了解用户的问题核心。用户可能想知道在这样的配置下,生成tokens的速度如何,每秒能生成多少个,或者总共有多少tokens可以生成。 首先,我应该回顾之前用户的问题历史。之前用户询问了如何改善Ollama的eval rate,也就是生成速率。现在用户可能是在特定硬件和模型配置下,想要了解具体的性能表现。因此,我需要结合之前的建议,比如模型量化、GPU加速、参数调整等,来估计当前的输出速度。 接下来,我需要确定几个关键因素:RTX 4090的性能参数、DeepSeek R1 14B模型的特点、q8量化的影响,以及Ollama在这些条件下的表现。 RTX 4090拥有24GB显存,足够处理较大的模型。对于14B参数的模型,尤其是量化到8位(q8),显存占用应该比原版更低,因此4090应该能轻松加载整个模型到显存中,避免内存与显存之间的数据传输延迟,这有利于提高生成速度。 DeepSeek R1 14B模型的结构也会影响生成速度。模型层数、注意力头数等参数决定了每次推理的计算量。量化到8位会减少每个权重的数据大小,从而降低内存带宽需求和计算量,理论上应该提升推理速度。不过,8位量化相对于更低的量化(如4位)可能速度提升不如后者明显,但精度保留更好。 Ollama的优化措施也很重要,比如是否启用了GPU加速,是否正确配置了层数分配到GPU。在之前的回答中,提到过使用--num_gpu参数来指定在GPU上运行的层数,这可以减少CPU和GPU之间的数据传输,提高速度。对于14B模型,可能需要将大部分或全部层分配到GPU上,以最大化性能。 然后,我需要查找类似配置下的性能数据。例如,Llama 2 13B在RTX 3090上使用量化后的推理速度大约是多少。不过RTX 4090的性能比3090更强,尤其是在FP16和INT8计算上。根据一些公开的基准测试,RTX 4090在LLM推理上的速度可能比3090快约50-100%。假设DeepSeek R1 14B q8在4090上的推理速度可能在每秒20-40 tokens之间,具体取决于模型的优化程度和Ollama的配置。 另外,用户提到的是q8量化,即8位整数量化。与更高的量化如4位相比,8位量化的模型精度更高,但速度提升可能不如4位明显。因此,速度可能介于原版和4位量化之间。例如,原版14B模型可能在4090上达到每秒10-20 tokens,而4位量化可能达到30-60 tokens,所以q8可能在20-40之间。 同时,生成参数如--num_predict(生成的最大tokens数)和--temperature也会影响速度。如果用户设置生成长度较长,整体生成时间会增加,但每秒生成的tokens数可能保持相对稳定。此外,温度设置较低时,模型可能更快收敛,减少生成时间。 还需要考虑Ollama的版本和配置是否正确启用了GPU加速。如果用户没有正确配置GPU层数,或者显存不足以完全加载模型,可能会导致部分计算在CPU上进行,从而降低速度。因此,确保使用--num_gpu参数将所有层分配到GPU是关键。 总结来说,结合硬件性能、量化影响、模型大小和配置参数,预计在RTX 4090上使用Ollama运行DeepSeek R1 14B q8时,输出速度大约在每秒20-40 tokens。但实际数值可能因具体设置和优化而有所不同,建议用户进行实际测试以获得准确数据。在</think> NVIDIA RTX 4090 上使用 Ollama 运行 **DeepSeek R1 14B 模型的 q88-bit 量化)版本**时,生成的 **Tokens 速率(eval rate)** 受硬件性能、量化策略和模型架构共同影响。以下是具体分析和预估: --- ### **1. 硬件与量化对速度的影响** - **RTX 4090 性能优势**: - 显存:24GB GDDR6X,足以容纳 14B 模型的 q8 量化版本(约占用 **10~14GB 显存**,具体取决于量化细节)。 - 计算能力:支持 FP16/INT8 加速,大幅提升矩阵运算效率。 - **q8 量化的特点**: - 8-bit 量化相比原模型(16/32 位浮点)显著降低显存占用,但速度提升可能不如 4-bit 量化明显(需权衡精度和速度)。 - 预计 q8推理速度介于 **原模型和 q4 量化模型之间**。 --- ### **2. 速度预估** 根据类似模型(如 LLaMA 13B)在 RTX 4090 上的实测数据: - **原模型(16-bit)**:约 **15~25 tokens/s**。 - **q4 量化模型**:约 **30~50 tokens/s**。 - **q8 量化模型**:由于保留更高精度,速度略低于 q4,预计 **20~40 tokens/s**。 对于 **DeepSeek R1 14B q8**: - **保守估计**:约 **18~30 tokens/s**(受模型结构和优化差异影响)。 - **理想情况**:若模型优化良好且完全加载到 GPU,可能接近 **30~35 tokens/s**。 --- ### **3. 关键优化建议** - **最大化 GPU 利用率**: - 使用 `--num_gpu` 参数将全部模型层加载到 GPU: ```bash ollama run deepseek-r1-14b-q8 --num_gpu 40 # 假设模型总层数为 40 ``` - 确保 Ollama 启用 CUDA/Metal 加速(通过 `ollama serve` 日志确认)。 - **调整生成参数**: - 限制生成长度(`--num_predict 512`)或降低随机性(`--temperature 0.7`)以加速生成。 - **关闭后台任务**:释放显存和内存带宽。 --- ### **4. 实测对比** 建议通过以下步骤自行测试实际速度: 1. **运行模型并记录时间**: ```bash ollama run deepseek-r1-14b-q8 --num_gpu 40 --num_predict 512 ``` 2. **计算 tokens/s**: - 输出 512 tokens 耗时约 15 秒 → **~34 tokens/s**。 - 耗时 25 秒 → **~20 tokens/s**。 --- ### **5. 影响因素总结** | 因素 | 对速度的影响 | |-------|---------------------------------------| | **量化程度(q8)** | 比原模型快 1.5~2 ,比 q4 慢 20%~30% | | **GPU 层分配** | 全加载到 GPU 可避免 CPU 瓶颈 | | **生成长度** | 生成长 token 时总时间增加,但速率稳定 | | **模型优化** | 深度优化的模型(如 FlashAttention)更快 | --- ### **结论** 在 RTX 4090 上运行 **DeepSeek R1 14B q8**,**预期输出速率约为 20~35 tokens/s**。若追求更高速度,可尝试以下方案: 1. 使用 **q4 量化版本**(如有),速度可能提升至 40+ tokens/s。 2. 换用更小模型(如 DeepSeek 7B)。 3. 结合 `--num_predict` 和 `--temperature` 进一步优化生成效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值