马斯克的 Grok-1 开源，3140亿参数目前最大开源模型，最佳实践教程来啦

最新推荐文章于 2025-03-18 18:26:32 发布

大模型与自然语言处理

最新推荐文章于 2025-03-18 18:26:32 发布

阅读量1.7k

点赞数 25

分类专栏： NLP与大模型大模型文章标签：自然语言处理 bert 人工智能算法深度学习大模型 LLM

本文链接：https://blog.csdn.net/2201_75499313/article/details/136952985

版权

NLP与大模型同时被 2 个专栏收录

215 篇文章

订阅专栏

大模型

50 篇文章

订阅专栏

近几天开源社区最大的热点，莫过于埃隆马斯克信守承诺的最大开源模型Grok-1。

Grok-1 是一款 314B 大型专家混合 (Mixture of Expert，MoE) Transformer，作为基础模型，基于大量文本数据进行训练，没有针对任何具体任务进行微调，使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。

官方提供的详细模型参数如下：

参数量： 3140亿
架构： 8个混合专家模型（MoE），每个Token使用2个专家
层数： 64层
多头注意力： Q使用48个注意力头，K/V 使用8个注意力头
嵌入尺寸： 6,144
词表大小： 131,072个Tokens，采用SentencePiece 分词器
使用RoPE位置编码
支持激活分片和8位量化
最大序列长度（上下文）： 8,192个Tokens

模型性能方面，Grok-1官方发布的Benchmark超过GPT-3.5 和 LLaMa2 70B（MMLU 为73%，GMSK 为62.9%，HumanEval 为63.2%）

话题中的模型效果如何，老规矩，我们向大家提供推理实践教程~

模型链接和下载

Grok-1模型在ModelScope社区可下载：

模型链接：https://www.modelscope.cn/models/AI-ModelScope/grok-1/summary

社区支持直接下载模型的repo：

from modelscope import snapshot_download
model_dir = snapshot_download("AI-ModelScope/grok-1")

Grok推理和评测

环境准备

Grok-1需要8卡A100运行。原始模型是Jax框架编写，因此使用魔搭默认镜像无法工作，为此需要使用Jax的镜像：

docker pull ghcr.io/nvidia/jax:jax
# 如果国内用户无法拉取上面的镜像可以使用我们转储的镜像
# docker pull registry.cn-wulanchabu.aliyuncs.com/ed/jax:1.0

进入docker实例之后对grok代码库进行克隆：

git clone https://github.com/xai-org/grok-1.git
cd grok-1
pip install -r requirements.txt
# 修正Jax版本
pip install --upgrade "jax[cuda12_local]==0.4.23" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

运行推理可以直接使用官方提供的样例：

# cd grok-1
# 修改样例中的CKPT_PATH = "ModelScope下载的模型路径"
python run.py

显存占用

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了大模型算法岗技术与面试交流群，想要进交流群、需要源码&资料、提升技术的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、微信搜索公众号：机器学习社区，后台回复：加群
方式②、添加微信号：mlc2060，备注：技术交流

实践合集：《大模型实战宝典》（2024版）正式发布！

马斯克的 Grok-1 开源，3140亿参数目前最大开源模型，最佳实践教程来啦

更多大模型实战案例

模型链接和下载

Grok推理和评测

技术交流群

用通俗易懂方式讲解系列