开源最强大语言模型:马斯克的Grok-1开源发布了;性能和参数;3步运行Grok

2024.3.17,马斯克的Grok-1正式在GitHub上开源发布了。在当前的开源社区里,Grok-1是基于transformer模型最强的实现,比之前Facebook开源发布的LLama 2要强不少。

GitHub - xai-org/grok-1: Grok open releaseGrok open release. Contribute to xai-org/grok-1 development by creating an account on GitHub.icon-default.png?t=N7T8https://github.com/xai-org/grok-1

性能和参数

2000多行python code,3140亿参数模型。

性能:

Grok-1大体看起来跟GPT-3.5稍微强一点点,比LLama 2 70B强不少,比GPT-4还是弱不少。

参数对比:

LLama 2: 70 billion,700亿

GPT-3.5:>= 175 billion,没有公开,但GPT-3 是1750亿

Grok-1: 314 Billion,3140亿

GPT-4:~1,500 BIllion,没有公开,传言1.5万亿

Grok-1 的具体参数:

  • Parameters: 314B
  • Architecture: Mixture of 8 Experts (MoE)
  • Experts Utilization: 2 experts used per token
  • Layers: 64
  • Attention Heads: 48 for queries, 8 for keys/values
  • Embedding Size: 6,144
  • Tokenization: SentencePiece tokenizer with 131,072 tokens
  • Additional Features:
    • Rotary embeddings (RoPE)
    • Supports activation sharding and 8-bit quantization
  • Maximum Sequence Length (context): 8,192 tokens

LLama 1 的具体参数:

GPT3 的具体参数:

3步运行Grok-1

第一步:下载检查点并将ckpt-0目录放入checkpoints,接近300GB

磁力链接 

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

第二步:运行脚本

pip install -r requirements.txt
python run.py

第三步:测试代码。

该脚本在测试输入上加载模型中的检查点和样本。

注意:

由于模型规模较大(314B参数),需要有足够GPU内存的机器才能使用示例代码测试模型。该存储库中 MoE 层的实现效率不高。选择该实现是为了避免需要自定义内核来验证模型的正确性。

这张封面图片是使用Midjourney根据Grok提出的以下提示生成的:一个神经网络的三维插图,具有透明的节点和发光的连接,通过不同粗细和颜色的连接线展示不同的权重。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ankie(资深技术项目经理)

打赏就是赞赏,感谢你的认可!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值