最大的开源大模型:马斯克的Grok-1可供企业商用

由马斯克xAI团队研发的最大的开源大语言模型Grok-1,从头开始训练的总参数量为314B(3140亿)的混合专家(MoE)模型,其规模超过ChatGPT-3.5,目前Grok背后代码和权重架构已全部开放上线在GitHub。

下载地址:https://github.com/xai-org/grok-1

Grok 1.0利用了定制的训练技术栈,在 JAX 和 Rust 的基础上从零开始构建。该模型在 2023 年 10 月完成预训练阶段时的基础模型数据,具有高达 314B 的模型参数数量。

Grok 1.0 采用了8个MoE,每一个数据单元由 2 位专家处理,嵌入向量的维度为 6144,并采用旋转式嵌入表示。此外,Grok 1.0 具有处理更长上下文信息的能力,最大序列长度为 8192 个数据单元。

值得注意的是,由于尚未对任何特定应用(如对话系统)进行微调,Grok 1.0 在处理特定任务时的表现可能不如一些专门为任务微调过的模型。根据 Apache 2.0 许可协议,现在公众可以自由访问模型的权重和架构,这为研究人员和开发者提供了更多探索和利用的机会。

xAI团队使用了一些旨在衡量数学和推理能力的标准机器学习基准对Grok-1进行了一系列评估。在MMLU、GSM8K等一系列的基准测试中,Grok-1显示出了超强的性能,胜过其计算类中的所有其他模型,包括ChatGPT-3.5和Inflection-1,但和Claude 2以及GPT-4仍有不小的差距。

不过,xAI团队表示,由于这些基准数据可在网上找到,无法排除模型在这些数据上进行了无意的训练。因此,在收集完数据集后,根据去年 5 月底公布的 2023 年匈牙利全国高中数学期末考试题(数据截止日期之后),xAI 对他们的模型(包括 Grok 1.0、Claude-2 和 GPT-4)进行了人工评分。结果显示,Grok 1.0 和 Claude-2 都获得了 C 级(59% 和 55%),而 GPT-4 则以 B 级(68%)通过考试。xAI 表示,他们并没有为了迎接这次考试而特别准备或调整模型。

值得一提的是,Grok-1采用的是Apache 2.0 license,这意味着程序员、公司和科研机构可以将该模型的副本用于各种目的,包括商业应用。

由于模型规模较大,需要有足够GPU和内存的机器才能运行Grok。可能需要一台拥有628GB GPU、8块H100内存的服务器才能够支撑Grok的运行,目前英智未来已建立数千P不同规格的智算算力,包括RTX系列、HGX1系列等,程序员、公司和机构都可以租赁英智未来的智算算力,基于Grok-1等各种开源大模型用于各种AI应用程序,快速构建自己的AI应用产品。

尽管 Grok 1.0 还需要更多复杂的微调和优化,庞大的体量对计算资源的需求面临很多挑战,Grok的开源仍然是一个值得称赞的无私行为,也是迈向开源 AGI 的重要一步。伴随更多开源模型的发布,希望未来更多开发者加入人工智能行列,共同推动科技创新和发展。

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

英智未来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值