对标ChatGPT生态: 智谱全新大模型 GLM-4 发布

在北京举办的ZhipuDevDay上,智谱AI发布了GLM-4,性能提升近60%,在多项评测中接近或超越GPT-4,强调了多模态能力、长文本处理和解决失焦问题。GLM-4还引入了AllTools功能,包括代码解释器和网页搜索等。尽管存在一些不足,但展示了国内大模型的竞争力和发展潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

🍁 展望:关注我, AI 和 编程 学习之旅上,我与您一同成长!

一、引言

今天上午,在北京举办 2024年度技术开放日 Zhipu DevDay,国内当前估值最高的AI大模型独角兽智谱AI发布了 新一代基座大模型GLM-4

性能比上一代提升接近60%,整体评测结果进阶GPT-4,支持更长的上下文、更强的多模态、更快速的推理、更多的并发,大大降低推理成本,同时 GLM-4 也增强了其智能体(Agent)的能力。

我们一起看看哪些功能出现了明显提升!

二、功能介绍

一)性能提升

在大规模多任务语言理解评测中,GLM-4的表现明显优于GPT-3.5,其平均得分已经达到了GPT-4的95%水平,在某些特定任务上甚至表现相当;

而在GSM8K数学评测数据集上,GLM-4的评分与GPT-4相比只有4.6%的差异;此外,在MATH数据集上,GLM-4的得分比GPT-3.5高出了15%,虽然相对于GPT-4稍逊9%。

在中英文混合评测中,GLM-4在Prompt级别和中文方面的表现均达到了GPT-4的88%。在指令跟随能力方面,GLM-4的表现达到了GPT-4 的90%,远超过 GPT-3.5。

智谱AI在中文对齐方面进行了全面的评估,包括公开的AlignBench和私有测试数据。在AlignBench上,GLM-4的总体得分超过了GPT-4 6月13日发布的版本,接近最新的GPT-4 Turbo版本。

在专业、中文理解和角色扮演等方面,甚至超过了最新的GPT-4,但在中文推理方面仍需进一步提升。

这一点挺让人惊喜:GLM-4 可以处理 128k 字的上下文,而且一次提示可以处理300页的文本。

此外,它的技术团队还成功解决了由于失焦而导致的精度下降问题,经过"大海捞针"测试,GLM-4模型几乎可以做到100%的召回精确度。

二)All Tools

发布会上提交 GLM-4 支持 All Tools 模型,即与 ChatGPT 一样,可以根据提示词自动匹配调用对应的功能:

  • 文生图
  • 代码解释器
  • 网页浏览

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值