性能不行，尺寸来凑？马斯克的 Grok-1 究竟价值几何？

司南OpenCompass

于 2024-08-06 14:45:07 发布

阅读量533

点赞数 17

分类专栏：大语言模型文章标签：人工智能深度学习 github 语言模型开源

本文链接：https://blog.csdn.net/OpenCompass/article/details/140955462

版权

大语言模型专栏收录该内容

7 篇文章 0 订阅

订阅专栏

过去一年多以来，人工智能的发展开启了狂暴模式，真可谓AI社区一天，人间一年。Mistral和Claude连发大招之后，马斯克的xAI也搞出了“大动作”！马斯克曾提出建立“第三方裁判”监督 AI 公司，并推出 xAI 项目为了打造能加速人类科技发展的人工智能，还对 OpenAI 发起起诉，指责其背离了初心，甚至表示如果 OpenAI 改名 ClosedAI 就撤诉。

3月11日，马斯克宣称 xAI 将对其开发的 AI 对话机器人 Grok 进行开源！

虽然时间略迟，不过他还是说到做到，3月17号，正式将 Grok-1 上传至 Github（https://github.com/xai-org/grok-1）

目前 Grok-1 在 Github 已收获超过 37k 星标。同时，因为有 3140 亿的参数，Grok-1 成为迄今参数量最大的开源 LLM，是 Llama 2 的 4 倍。

Grok-1 是个什么模型？能力如何？

“如果你讨厌幽默，请不要使用它！”

Grok-1 是 xAI 于2023年11月发布的大语言模型 Grok 的核心驱动，是一个生成式人工智能产品。

据 Grok 官网介绍，Grok 是一个仿照《银河系漫游指南》设计的人工智能，能回答被大多数其他人工智能系统拒绝的辛辣问题，甚至能建议你问什么问题，并且在回答问题时略带诙谐，有反叛的倾向。官网直言“如果你讨厌幽默，请不要使用它！”。它独特而基本的优势是，可以通过 𝕏 平台实时了解世界。

图片来自：Announcing Grok (x.ai)

“强劲”的性能表现

据 Grok 官网展示的评测结果所示，在这些基准测试中 Grok-1 显示出了官方声称的“强劲”性能，但仅比 GPT-3.5 高一点，远不及 Claude 2。GPT-4、Claude-3和Gemini等模型更是没有出现在性能对比表格里。据此前的社区消息，GPT-3.5是一个20B左右的模型，而Grok-1的314B MoE模型（激活参数大约86B）。

图片来自：Announcing Grok (x.ai)

官方披露的性能包括了四个基准，包括小学和初中级别的数学题评测集GSM8k、多学科知识评测集MMLU、Python代码编程HumanEval和面向初高中的复杂数学评测集MATH。 OpenCompass 团队也正在基于OpenCompass工具和能力体系对Grok-1开展性能分析，更多信息敬请期待。

模型细节

此次开源的Grok-1 也一跃成为了（可能是）目前开源大模型中参数量最大的大语言模型。值得一提的是，它是一个混合专家架构 (MoE) 模型。自从去年Mistral开源了Mixtral-8x7B模型之后，整个社区在MoE架构上竞赛也开始了，国内的DeepSeek和MiniMax先后推出了MoE模型，预计2024年会有更多MoE架构的新模型持续给大家带来惊喜。

具体来说，Grok-1 模型参数如下：

Grok-1模型架构参数项	Grok-1模型参数结果
架构	混合专家模型
参数总数	3140亿
专家数	8个
每个专家参数数量	430亿
每次推理激活的参数数量	860亿
开源协议	Apache 2.0
词汇表数量	131072
上下文长度	8K

Grok 采用的 MoE 结构到底是什么？

MoE 混合专家模型

MoE，即混合专家模型，在这种结构中，通过专家的集成和智能路由机制，为处理大规模数据集和复杂任务提供了一个高效且可扩展的解决方案。具体来说，就是将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层，其中 MoE 层由两个核心部分组成: 一个路由器（或者叫门控网络）和若干数量的专家。

下图将传统 Transformer 模型与 MoE 模型结构进行对比（以 Llama 和 Mixtral 为例）：

MoE 架构具备哪些优势？

MoE 的最大优势就是与 Dense (稠密) 模型相比，在相同计算资源下，训练速度更快，而且可以训练更大的模型。比如 Google 的 Switch Transformer，模型大小是其 T5-XXL 的15倍，在相同计算资源下，Switch Transformer 模型在达到固定困惑度 PPL 时，比 T5-XXL 模型快4倍。

总体来说，MoE 模型的优点主要有以下 4 点：

训练速度更快，效果更好。
相同参数，推理成本低。
扩展性好，允许模型在保持计算成本不变的情况下增加参数数量，这使得它能够扩展到非常大的模型规模，如万亿参数模型。
多任务学习能力：MoE 在多任务学习中具备很好的性能

MoE 架构下的 Mixtral

Mistral AI 已经将 Mixtral-8x7B 开源，其采用的架构就是 MoE 模型，OpenCompass 团队在去年第一时间支持了Mixtral 模型架构的推理和评测，也开源了相关工具 Mixtralkit（https://github.com/open-compass/MixtralKit）

敢问路在何方？

多专家混合架构（MoE）已成为众多研究团队的热点竞争领域。除此之外，基于递归神经网络（RNN）的新型架构探索也正迅速吸引着广泛的关注。特别是针对超长序列处理的架构设计，以及为端侧设备量身定制的大型模型架构，预计将日益成为研究的重点。

尽管整个社区对Grok褒贬不一，但是我们仍旧要为xAI的开源精神点赞。Grok-1的开源发布不仅展示了超大规模MoE模型技术实施的可行性，而且可能是xAI内部训练过程中的一个里程碑，或者是马斯克开源计划的序幕。从工程实践的视角来看，这至少证明了xAI具备坚实的工程基础，能够支撑起如此庞大模型的训练工作。虽然通往人工通用智能（AGI）的道路充满挑战与未知，但开源社区无疑将为这一征程贡献其独到的力量。

我们不知道终局是什么，能与大家共赴这场通用人工智能的奇幻之旅，也是人生中的幸运。

司南OpenCompass

关注

17
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
性能不行，尺寸来凑？马斯克的 Grok-1 究竟价值几何？

过去一年多以来，人工智能的发展开启了狂暴模式，真可谓。Mistral和Claude连发大招之后，马斯克的xAI也搞出了“大动作”！马斯克曾提出建立“第三方裁判”监督 AI 公司，并推出 xAI 项目为了打造能加速人类科技发展的人工智能，还对 OpenAI 发起起诉，指责其背离了初心，甚至表示如果 OpenAI 改名 ClosedAI 就撤诉。3月11日，马斯克宣称 xAI 将对其开发的 AI 对话机器人 Grok 进行开源！
复制链接

扫一扫

专栏目录