2024.3.17,马斯克的Grok-1正式在GitHub上开源发布了。在当前的开源社区里,Grok-1是基于transformer模型最强的实现,比之前Facebook开源发布的LLama 2要强不少。
性能和参数
2000多行python code,3140亿参数模型。
性能:
Grok-1大体看起来跟GPT-3.5稍微强一点点,比LLama 2 70B强不少,比GPT-4还是弱不少。
参数对比:
LLama 2: 70 billion,700亿
GPT-3.5:>= 175 billion,没有公开,但GPT-3 是1750亿
Grok-1: 314 Billion,3140亿
GPT-4:~1,500 BIllion,没有公开,传言1.5万亿
Grok-1 的具体参数:
- Parameters: 314B
- Architecture: Mixture of 8 Experts (MoE)
- Experts Utilization: 2 experts used per token
- Layers: 64
- Attention Heads: 48 for queries, 8 for keys/values
- Embedding Size: 6,144
- Tokenization: SentencePiece tokenizer with 131,072 tokens
- Additional Features:
- Rotary embeddings (RoPE)
- Supports activation sharding and 8-bit quantization
- Maximum Sequence Length (context): 8,192 tokens
LLama 1 的具体参数:
GPT3 的具体参数:
3步运行Grok-1
第一步:下载检查点并将ckpt-0
目录放入checkpoints,接近300GB。
磁力链接
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
第二步:运行脚本
pip install -r requirements.txt
python run.py
第三步:测试代码。
该脚本在测试输入上加载模型中的检查点和样本。
注意:
由于模型规模较大(314B参数),需要有足够GPU内存的机器才能使用示例代码测试模型。该存储库中 MoE 层的实现效率不高。选择该实现是为了避免需要自定义内核来验证模型的正确性。
这张封面图片是使用Midjourney根据Grok提出的以下提示生成的:一个神经网络的三维插图,具有透明的节点和发光的连接,通过不同粗细和颜色的连接线展示不同的权重。