马斯克旗下xAI正式宣布开源大模型Grok-1

IT大头

已于 2024-04-09 09:10:02 修改

阅读量1.2k

点赞数 29

分类专栏： NLP实战文章标签： chatgpt 人工智能自然语言处理机器学习 python 语言模型

于 2024-03-19 09:06:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45156060/article/details/136829014

版权

NLP实战专栏收录该内容

19 篇文章 5 订阅

订阅专栏

Grok-1

目前，xAI关于Grok-1没有透露更多信息。

官网放出的信息如下——

基础模型在大量文本数据上训练，未针对任何特定任务进行微调。
314B参数的MoE，有25%的权重在给定token上处于激活状态。
2023年10月，xAI使用JAX和Rust之上的自定义训练堆栈从头开始训练。
截至到目前为止，，Grok在Github上就狂揽了6k星，620个Fork。

3140亿的参数，让Grok-1成为迄今参数量最大的开源LLM，是Llama 2的4倍。

全球首个最大模型开源

这次xAI开源Grok-1，遵守的是Apache-2.0许可证，因此，用户可以自由使用、修改和分发软件。

存储库包含了用于加载和运行Grok-1开源权重模型的JAX示例代码。

由于模型较大，参数达到了314B参数，因此需要具有足够GPU内存的计算机，才能使用示例代码测试模型。

一般人估计是很难在个人PC上运行起来。

斯坦福研究者Andrew Kean Gao浏览了model.py介绍了更多Grok的架构信息，3140亿参数没有更多附加条款。

8个混合专家（2个活跃专家），860B活跃参数。它使用旋转嵌入，而不是固定位置嵌入。

tokenizer词汇量：131,072（于GPT-4类似）相当于2^17
嵌入大小：6144（48*128）
Transformer层：64（每一层都有一个解码层：多头注意块和密度块）
键值大小：128

最后大家可以直接看Andrew Kean Gao针对Grok-1的总结版图。

大模型第二春？

AI社区已经沸腾了！

连OpenAI的员工，都表示了自己对Grok的强烈兴趣。

英伟达高级科学家Jim Fan表示，「有史以来最大的开源大模型，由世界级团队训练，通过磁力链Apache 2.0发布。

xAI表示，Grok的设计灵感来源于《银河系漫游指南》，它能够回答几乎所有问题，助力人类不分背景或政治立场地追求理解和知识。

Grok最初的版本Grok-0拥有330亿参数，紧接着xAI推出了经过数次改进的Grok-1，为X上的Grok聊天机器人提供支持。

根据xAI公布的数据，在GSM8K、HumanEval和MMLU等一系列基准测试中，Grok-1的表现超过了Llama-2-70B和GPT-3.5，虽然跟GPT-4还差得远。

referer：x.ai/blog/grok

但此次xAI并没有放出Grok-1的具体测试成绩，其与OpenAI即将发布的GPT-5的大模型王者之战，必将成为业内关注的焦点。

关注

29
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
马斯克旗下xAI正式宣布开源大模型Grok-1

根据xAI公布的数据，在GSM8K、HumanEval和MMLU等一系列基准测试中，Grok-1的表现超过了Llama-2-70B和GPT-3.5，虽然跟GPT-4还差得远。Grok最初的版本Grok-0拥有330亿参数，紧接着xAI推出了经过数次改进的Grok-1，为X上的Grok聊天机器人提供支持。但此次xAI并没有放出Grok-1的具体测试成绩，其与OpenAI即将发布的GPT-5的大模型王者之战，必将成为业内关注的焦点。连OpenAI的员工，都表示了自己对Grok的强烈兴趣。官网放出的信息如下——
复制链接

扫一扫

专栏目录

IT大头 CSDN认证博客专家 CSDN认证企业博客

码龄5年

48: 原创

1398: 周排名

2万+: 总排名

8万+: 访问

: 等级

1300: 积分

6872: 粉丝

709: 获赞

152: 评论

817: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python调用讯飞星火大模型v3.x api接口使用教程2.0（python sdk，支持图片理解）
IT大头: 文章中的sdk版本是0.3.24，你用是新版的吧，新的移除这个函数了好像 import base64 image_content = base64.b64encode(open("spark_llama_index.png",'rb').read()) spark = ChatSparkLLM( spark_app_id=os.environ["SPARKAI_APP_ID"], spark_api_key=os.environ["SPARKAI_API_KEY"], spark_api_secret=os.environ["SPARKAI_API_SECRET"], spark_llm_domain="image", streaming=False, user_agent="test" ) messages = [ImageChatMessage( role="user", content=image_content, content_type="image" ),ImageChatMessage( role="user", content="这是什么图", content_type="text" )] handler = ChunkPrintHandler() a = spark.generate([messages], callbacks=[])
Python调用讯飞星火大模型v3.x api接口使用教程2.0（python sdk，支持图片理解）
L1229304629: 作者您好，图片实战部分遇到问题： ImportError: cannot import name 'ImageChatMessage' from 'sparkai.core.messages' (/home/lzh/anaconda3/envs/xunfei310/lib/python3.10/site-packages/sparkai/core/messages/__init__.py)
基于lora的通义千问qwen大模型微调实战
IT大头: 数据并行，训练数据分配不均，大多是DDP问题
基于lora的通义千问qwen大模型微调实战
weixin_45655720: 请问一下，用单机多卡微调后，效果反而变差了是为什么呢？单机单卡微调后都是符合预期的。谢谢。
Llama 3大模型发布！快速体验推理及微调
IT大头: 公众号回复加群，有新码

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

IT大头 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。