对标ChatGPT生态: 智谱全新大模型 GLM-4 发布

最新推荐文章于 2025-10-03 21:20:37 发布

原创

最新推荐文章于 2025-10-03 21:20:37 发布 · 3.1k 阅读

·

30

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#chatgpt #人工智能

在北京举办的ZhipuDevDay上，智谱AI发布了GLM-4，性能提升近60%，在多项评测中接近或超越GPT-4，强调了多模态能力、长文本处理和解决失焦问题。GLM-4还引入了AllTools功能，包括代码解释器和网页搜索等。尽管存在一些不足，但展示了国内大模型的竞争力和发展潜力。

🍁 展望：关注我, AI 和编程学习之旅上，我与您一同成长！

一、引言

今天上午，在北京举办 2024年度技术开放日 Zhipu DevDay，国内当前估值最高的AI大模型独角兽智谱AI发布了 新一代基座大模型GLM-4。

性能比上一代提升接近60%，整体评测结果进阶GPT-4，支持更长的上下文、更强的多模态、更快速的推理、更多的并发，大大降低推理成本，同时 GLM-4 也增强了其智能体（Agent）的能力。

我们一起看看哪些功能出现了明显提升！

二、功能介绍

一）性能提升

在大规模多任务语言理解评测中，GLM-4的表现明显优于GPT-3.5，其平均得分已经达到了GPT-4的95%水平，在某些特定任务上甚至表现相当；

而在GSM8K数学评测数据集上，GLM-4的评分与GPT-4相比只有4.6%的差异；此外，在MATH数据集上，GLM-4的得分比GPT-3.5高出了15%，虽然相对于GPT-4稍逊9%。

在中英文混合评测中，GLM-4在Prompt级别和中文方面的表现均达到了GPT-4的88%。在指令跟随能力方面，GLM-4的表现达到了GPT-4 的90%，远超过 GPT-3.5。

智谱AI在中文对齐方面进行了全面的评估，包括公开的AlignBench和私有测试数据。在AlignBench上，GLM-4的总体得分超过了GPT-4 6月13日发布的版本，接近最新的GPT-4 Turbo版本。

在专业、中文理解和角色扮演等方面，甚至超过了最新的GPT-4，但在中文推理方面仍需进一步提升。

这一点挺让人惊喜：GLM-4 可以处理 128k 字的上下文，而且一次提示可以处理300页的文本。

此外，它的技术团队还成功解决了由于失焦而导致的精度下降问题，经过"大海捞针"测试，GLM-4模型几乎可以做到100%的召回精确度。

二）All Tools

发布会上提交 GLM-4 支持 All Tools 模型，即与 ChatGPT 一样，可以根据提示词自动匹配调用对应的功能：

文生图
代码解释器
网页浏览

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。