号称全球最强开源 AI 模型,DBRX 登场:1320 亿参数,语言理解、编程能力等均超 GPT-3.5

初创公司 Databricks 近日发布公告,推出了开源 AI 模型 DBRX,声称是迄今为止全球最强大的开源大型语言模型,比 Meta 的 Llama 2 更为强大。

在这里插入图片描述
DBRX 采用 transformer 架构,包含 1320 亿参数,共 16 个专家网络组成,每次推理使用其中的 4 个专家网络,激活 360 亿参数。

Databricks 在公司博客文章中介绍,在语言理解、编程、数学和逻辑方面,对比 Meta 公司的 Llama 2-70B、法国 MixtralAI 公司的 Mixtral 以及马斯克旗下 xAI 开发的 Grok-1 等主流开源模型,DBRX 均优势胜出。

在这里插入图片描述
图 1:DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 方面的表现优于已有的开源模型

在语言理解方面,DBRX 的分值为 73.7%,高于 GPT-3.5 的 70.0%、高于 Llama 2-70B 的 69.8%、Mixtral 的 71.4% 以及 Grok-1 的 73.0%。

ModeDBRX InstructMixtral InstructMixtral BaseLLaMA2-70B ChatLLaMA2-70B BaseGrok-111
Open LLM Leaderboard2 (Avg of next 6 rows)74.5%72.7%68.4%62.4%67.9%-
ARC-challenge 25-shot68.9%70.1%68.4%64.6%67.3%-
HellaSwag 10-shot89.0%87.6%86.5%85.9%87.3%-
MMLU 5-shot73.7%71.4%71.9%63.9%69.8%73.0%
Truthful QA 0-shot66.9%65.0%46.8%52.8%44.9%-
WinoGrande 5-shot81.8%81.1%81.7%80.5%83.7%-
GSM8k CoT 5-shot maj@1366.9%61.1%57.6%26.7%54.1%62.9% (8-shot)
Gauntlet v0.34 (Avg of 30+ diverse tasks)66.8%60.7%56.8%52.8%56.4%-
HumanEval5 0-Shot, pass@1 (Programming)70.1%54.8%40.2%31.0%67.9%63.2%

在编程能力方面,DBRX 的得分为 70.1%,远超 GPT-3.5 的 48.1%,高于 Llama 2-70B 的 32.3%、Mixtral 的 54.8% 以及 Grok-1 的 63.2%。

ModeDBRX InstructGPT-3.57GPT-48Claude 3 HaikuClaude 3 SonnetClaude 3 OpusGemini 1.0 ProGemini 1.5 ProMistral MediumMistral Large
MT Bench (Inflection corrected, n=5)8.39 ± 0.08--8.41 ± 0.048.54 ± 0.099.03 ± 0.068.23 ± 0.08-8.05 ± 0.128.90 ± 0.06
MMLU 5-shot73.7%70.0%86.4%75.2%79.0%86.8%71.8%81.9%75.3%81.2%
HellaSwag 10-shot89.0%85.5%95.3%85.9%89.0%95.4%84.7%92.5%88.0%89.2%
HumanEval 0-Shot pass@1 (Programming)70.1% temp=0, N=148.1%67.0%75.9%73.0%84.9%67.7%71.9%38.4%45.1%
GSM8k CoT maj@172.8% (5-shot)57.1% (5-shot)92.0% (5-shot)88.9%92.3%95.0%86.5% (maj1@32)91.7% (11-shot)66.7% (5-shot)81.0% (5-shot)
WinoGrande 5-shot81.8%81.6%87.5%88.0%86.7%

在数学方面,DBRX 的得分为 66.9%,高于 GPT-3.5 的 57.1%,也高于 Llama 2-70B 的 54.1%、Mixtral 的 61.1% 和 Grok-1 的 62.9%
在这里插入图片描述

Databricks 介绍,DBRX 是一个基于 MegaBlocks 研究和开源项目构建的混合专家模型 (MoE),因此每秒输出 token 的速度极快。Databricks 相信,这将为 MoE 未来最先进的开源模型铺平道路。

附上参考地址:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值