最大的开源大模型：马斯克的Grok-1可供企业商用

英智未来

已于 2024-03-29 15:26:42 修改

阅读量551

点赞数 5

文章标签：人工智能 gpu算力语言模型

于 2024-03-25 15:26:24 首次发布

本文链接：https://blog.csdn.net/ai2nv/article/details/137015603

版权

由马斯克xAI团队研发的最大的开源大语言模型Grok-1，从头开始训练的总参数量为314B（3140亿）的混合专家（MoE）模型，其规模超过ChatGPT-3.5，目前Grok背后代码和权重架构已全部开放上线在GitHub。

下载地址：https://github.com/xai-org/grok-1

Grok 1.0利用了定制的训练技术栈，在 JAX 和 Rust 的基础上从零开始构建。该模型在 2023 年 10 月完成预训练阶段时的基础模型数据，具有高达 314B 的模型参数数量。

Grok 1.0 采用了8个MoE，每一个数据单元由 2 位专家处理，嵌入向量的维度为 6144，并采用旋转式嵌入表示。此外，Grok 1.0 具有处理更长上下文信息的能力，最大序列长度为 8192 个数据单元。

值得注意的是，由于尚未对任何特定应用（如对话系统）进行微调，Grok 1.0 在处理特定任务时的表现可能不如一些专门为任务微调过的模型。根据 Apache 2.0 许可协议，现在公众可以自由访问模型的权重和架构，这为研究人员和开发者提供了更多探索和利用的机会。

xAI团队使用了一些旨在衡量数学和推理能力的标准机器学习基准对Grok-1进行了一系列评估。在MMLU、GSM8K等一系列的基准测试中，Grok-1显示出了超强的性能，胜过其计算类中的所有其他模型，包括ChatGPT-3.5和Inflection-1，但和Claude 2以及GPT-4仍有不小的差距。

不过，xAI团队表示，由于这些基准数据可在网上找到，无法排除模型在这些数据上进行了无意的训练。因此，在收集完数据集后，根据去年 5 月底公布的 2023 年匈牙利全国高中数学期末考试题（数据截止日期之后），xAI 对他们的模型（包括 Grok 1.0、Claude-2 和 GPT-4）进行了人工评分。结果显示，Grok 1.0 和 Claude-2 都获得了 C 级（59% 和 55%），而 GPT-4 则以 B 级（68%）通过考试。xAI 表示，他们并没有为了迎接这次考试而特别准备或调整模型。

值得一提的是，Grok-1采用的是Apache 2.0 license，这意味着程序员、公司和科研机构可以将该模型的副本用于各种目的，包括商业应用。

由于模型规模较大，需要有足够GPU和内存的机器才能运行Grok。可能需要一台拥有628GB GPU、8块H100内存的服务器才能够支撑Grok的运行，目前英智未来已建立数千P不同规格的智算算力，包括RTX系列、HGX1系列等，程序员、公司和机构都可以租赁英智未来的智算算力，基于Grok-1等各种开源大模型用于各种AI应用程序，快速构建自己的AI应用产品。

尽管 Grok 1.0 还需要更多复杂的微调和优化，庞大的体量对计算资源的需求面临很多挑战，Grok的开源仍然是一个值得称赞的无私行为，也是迈向开源 AGI 的重要一步。伴随更多开源模型的发布，希望未来更多开发者加入人工智能行列，共同推动科技创新和发展。

英智未来

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
最大的开源大模型：马斯克的Grok-1可供企业商用

可能需要一台拥有628GB GPU、8块H100内存的服务器才能够支撑Grok的运行，目前英智未来已建立数千P不同规格的智算算力，包括NVIDIA H100、RTX 4090、A800等，程序员、公司和机构都可以租赁英智未来的智算算力，基于Grok-1等各种开源大模型用于各种AI应用程序，快速构建自己的AI应用产品。尽管 Grok 1.0 还需要更多复杂的微调和优化，庞大的体量对计算资源的需求面临很多挑战，Grok的开源仍然是一个值得称赞的无私行为，也是迈向开源 AGI 的重要一步。
复制链接

扫一扫