LLMs之Grok-2：Grok 2的简介、安装和使用方法、案例应用之详细攻略

一个处女座的程序猿

已于 2024-08-24 00:59:51 修改

阅读量1w

点赞数 17

分类专栏： NLP/LLMs 文章标签： LLM Grok-2

于 2024-08-20 01:02:43 首次发布

本文链接：https://blog.csdn.net/qq_41185868/article/details/141338126

版权

NLP/LLMs 专栏收录该内容

782 篇文章

订阅专栏

LLMs之Grok-2：Grok 2的简介、安装和使用方法、案例应用之详细攻略

LLMs之Grok：Grok(一款具有00后特点般幽默、机智和实时的大语言模型)的简介、使用方法、案例应用之详细攻略

LLMs之Grok-1：Grok-1的简介、安装、使用方法之详细攻略

LLMs之Grok-1.5：Grok-1.5的简介、安装和使用方法、案例应用之详细攻略

LLMs之Grok-2：Grok 2的简介、安装和使用方法、案例应用之详细攻略

2、专注于评估模型在两个关键领域的能力：遵循指示和提供准确、真实的信息

T1、体验 Grok，获取有关X的实时信息

T2、使用企业 API 通过 Grok 进行构建

Grok-2的案例应用

Grok-2的简介

2024 年 8 月 13 日，马斯克旗下xAI团队发布Grok-2 Beta 版。Grok-2 是我们具有最先进推理能力的前沿语言模型。此版本包括 Grok 系列的两个成员：Grok-2 和 Grok-2 mini。这两种模型现在都已在X平台上向 Grok 用户发布。

我们很高兴发布 Grok-2 的早期预览版，这是我们之前型号 Grok-1.5 的重大进步，具有聊天、编码和推理方面的前沿功能。同时，我们推出了 Grok-2 mini，它是 Grok-2 的一款体型虽小但功能强大的兄弟产品。Grok-2 的早期版本已在 LMSYS 排行榜上以“sus-column-r”的名称进行了测试。在撰写这篇博文时，它的表现优于 Claude 3.5 Sonnet 和 GPT-4-Turbo。

Grok-2 和 Grok-2 mini 目前在X上处于测试阶段，我们还将在本月晚些时候通过我们的企业 API 提供这两种型号。

自 2023 年 11 月宣布 Grok-1 以来，xAI 一直以惊人的速度发展，由一支拥有最高人才密度的小团队推动。我们推出了 Grok-2，使我们处于 AI 开发的前沿。我们的重点是通过我们的新计算集群来提高核心推理能力。

官网地址：https://x.ai/blog/grok-2

1、Grok-2 语言模型和聊天功能

我们将 Grok-2 的早期版本“sus-column-r”引入了 LMSYS 聊天机器人领域，这是一个流行的竞争性语言模型基准。就其总体 Elo 得分而言，它在 LMSYS 排行榜上的表现优于 Claude 和 GPT-4。

图片一：整体ELO评分

这张图显示了在Chatbot Arena中的整体ELO评分，Grok-2模型的排名靠前，ELO评分接近1280，表现优异，尤其在多个先进模型中保持竞争力。这表明Grok-2在整体性能上具有较强的竞争力。

图片二：Grok-2与其他模型的胜率

这张图展示了Grok-2与其他模型对战时的胜率。Grok-2在与多个模型的对比中，胜率均高于50%，尤其在与DeepSeek V2对战时胜率高达70%。这显示了Grok-2在实际对战中的优越性能，尤其在特定对手中表现突出。

图片三：AI导师对事实准确性的偏好

在这张图中，Grok-2在事实准确性上表现出色。相比Grok-1.5和Grok-2 mini，Grok-2的胜率为62.9%，这表明其在提供事实性回答时更受AI导师的偏好和信赖。这凸显了Grok-2在准确性方面的显著改进。

总结来说，Grok-2模型在整体性能、对战胜率以及事实准确性上都展现了其强大的能力和可靠性。

2、专注于评估模型在两个关键领域的能力：遵循指示和提供准确、真实的信息

在内部，我们采用类似的流程来评估我们的模型。我们的 AI 导师通过各种任务与我们的模型互动，这些任务反映了与 Grok 的真实互动。在每次互动过程中，Grok 都会向 AI 导师提供两个响应。他们会根据指南中概述的特定标准选择最佳响应。我们专注于评估模型在两个关键领域的能力：遵循指示和提供准确、真实的信息。Grok-2 在推理检索到的内容和工具使用能力方面表现出了显著的进步，例如正确识别缺失信息、通过事件序列进行推理以及丢弃不相关的帖子。

3、基准

我们通过一系列学术基准对 Grok-2 模型进行了评估，这些基准包括推理、阅读理解、数学、科学和编码。Grok-2 和 Grok-2 mini 都比我们之前的 Grok-1.5 模型有显著改进。它们在研究生水平的科学知识 (GPQA)、常识 (MMLU、MMLU-Pro) 和数学竞赛问题 (MATH) 等领域的表现可与其他前沿模型相媲美。此外，Grok-2 在基于视觉的任务方面表现出色，在视觉数学推理 (MathVista) 和基于文档的问答 (DocVQA) 方面表现出色。

GPT-4-Turbo 和 GPT-4o 分数来自 2024 年 5 月发布。
Claude 3 Opus 和 Claude 3.5 Sonnet 分数来自 2024 年 6 月发布。
Grok-2 MMLU、MMLU-Pro、MMMU 和 MathVista 使用 0-shot CoT 进行评估。
对于MATH，我们呈现 maj@1 结果。
对于HumanEval，我们报告 pass@1 基准分数。

4、下一步是什么？

Grok-2 和 Grok-2 mini 正在X上推出。我们对它们应用于一系列 AI 驱动的功能感到非常兴奋，例如增强的搜索功能、深入了解X帖子以及改进的回复功能，所有这些都由 Grok 提供支持。很快，我们将发布多模式理解的预览版，作为X和 API 上 Grok 体验的核心部分。

Grok-2的安装和使用方法

1、安装

等待开源中……

2、使用方法

T1、体验 Grok，获取有关X的实时信息

测试地址：https://x.com/i/grok

在过去的几个月里，我们一直在不断改进X平台上的 Grok。今天，我们将推出 Grok 体验的下一个发展阶段，其中包括重新设计的界面和新功能。

Premium 和 Premium+ 用户可以使用两种新型号：Grok-2 和 Grok-2 mini。Grok-2 是我们最先进的 AI 助手，具有文本和视觉理解方面的高级功能，集成了来自X平台的实时信息，可通过X应用程序中的 Grok 选项卡访问。Grok-2 mini 是我们小巧但功能强大的型号，在速度和答案质量之间取得了平衡。与其前代产品相比，Grok-2 更直观、可操作且功能多样，可执行各种任务，无论您是在寻找答案、协作写作还是解决编码任务。通过与Black Forest Labs合作，我们正在试验他们的FLUX.1模型，以扩展 Grok 在X上的功能。如果您是 Premium 或 Premium+ 订阅者，请务必更新到X应用程序的最新版本以对 Grok-2 进行 Beta 测试。

T2、使用企业 API 通过 Grok 进行构建

本月晚些时候，我们还将通过新的企业 API 平台向开发人员发布 Grok-2 和 Grok-2 mini。我们即将推出的 API 建立在新的定制技术堆栈上，允许多区域推理部署，以实现全球低延迟访问。我们提供增强的安全功能，例如强制性多因素身份验证（例如使用 Yubikey、Apple TouchID 或 TOTP）、丰富的流量统计数据和高级计费分析（包括详细数据导出）。我们还提供了一个管理 API，允许您将团队、用户和计费管理集成到您现有的内部工具和服务中。订阅我们的时事通讯，以便在本月晚些时候发布时收到通知。