马斯克的 Grok-1 开源,3140亿参数目前最大开源模型,最佳实践教程来啦

近几天开源社区最大的热点,莫过于埃隆马斯克信守承诺的最大开源模型Grok-1。

Grok-1 是一款 314B 大型专家混合 (Mixture of Expert,MoE) Transformer,作为基础模型,基于大量文本数据进行训练,没有针对任何具体任务进行微调,使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。

官方提供的详细模型参数如下:

  • 参数量: 3140亿

  • 架构: 8个混合专家模型(MoE),每个Token使用2个专家

  • 层数: 64层

  • 多头注意力: Q使用48个注意力头,K/V 使用8个注意力头

  • 嵌入尺寸: 6,144

  • 词表大小: 131,072个Tokens,采用SentencePiece 分词器

  • 使用RoPE位置编码

  • 支持激活分片和8位量化

  • 最大序列长度(上下文): 8,192个Tokens

模型性能方面,Grok-1官方发布的Benchmark超过GPT-3.5 和 LLaMa2 70B(MMLU 为73%,GMSK 为62.9%,HumanEval 为63.2%)

图片

话题中的模型效果如何,老规矩,我们向大家提供推理实践教程~

更多大模型实战案例


实践合集:《大模型实战宝典》(2024版)正式发布!


模型链接和下载

Grok-1模型在ModelScope社区可下载:

模型链接:https://www.modelscope.cn/models/AI-ModelScope/grok-1/summary

社区支持直接下载模型的repo:

from modelscope import snapshot_download
model_dir = snapshot_download("AI-ModelScope/grok-1")

Grok推理和评测

环境准备

Grok-1需要8卡A100运行。原始模型是Jax框架编写,因此使用魔搭默认镜像无法工作,为此需要使用Jax的镜像:

docker pull ghcr.io/nvidia/jax:jax
# 如果国内用户无法拉取上面的镜像可以使用我们转储的镜像
# docker pull registry.cn-wulanchabu.aliyuncs.com/ed/jax:1.0

进入docker实例之后对grok代码库进行克隆:

git clone https://github.com/xai-org/grok-1.git
cd grok-1
pip install -r requirements.txt
# 修正Jax版本
pip install --upgrade "jax[cuda12_local]==0.4.23" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

运行推理可以直接使用官方提供的样例:

# cd grok-1
# 修改样例中的CKPT_PATH = "ModelScope下载的模型路径"
python run.py

显存占用

图片

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了大模型算法岗技术与面试交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2060,备注:技术交流

实践合集:《大模型实战宝典》(2024版)正式发布!

用通俗易懂方式讲解系列

  • 25
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值