马斯克的Grok-1.5来了!可处理128K长上下文

0ab601450cbb571c1fe47acc31fa4b00.gif

整理 | 王轶群

出品丨AI 科技大本营(ID:rgznai100)

今天早上,马斯克旗下的xAI团队官宣Grok-1.5即将发布。据介绍,Grok-1.5具有优化的高级推理能力和128K长上下文处理能力。

0528e9f1be8cb93c1e7fb7fd48308c85.png

在两周前发布Grok-1 的模型权重和网络架构,xAI展示了该团队截至2023年11月所取得的进展。从那时起,该团队在最新模型Grok-1.5中提高了推理和解决问题的能力。

本周内,DBRX前脚发布,马斯克后脚默默回击,但并没有宣布Grok-1.5是否开源。

​xAI团队官方介绍道,Grok-1.5能够进行长上下文理解和高级推理,Grok-1.5将在未来几天内向其早期测试人员和X平台上的现有Grok用户提供。该团队期待收到用户的反馈来帮助改进 Grok。随着Grok-1.5的逐步推广,xAI团队也会在未来几天推出一些新功能。

能力与推理

Grok-1.5最显著的改进之一是其在编码和数学相关任务中的性能。在其测试中,Grok-1.5在 MATH水平上取得了50.6%的成绩,在GSM8K水平上取得了90%的成绩,这两个数学水平涵盖了广泛的小学到高中的竞赛问题。此外,它在评估代码生成和解决问题能力的HumanEval水平测试中得分为74.1%。

6931477050e1505dacf73bc8cd232df3.png

(注:GPT-4的成绩取自2023年3月版本;在MATH和GSM8K,提供的是maj@1的结果;对于 HumanEval,报告的是pass@1的成绩。)

长上下文理解

Grok-1.5中的一个新功能是能够在其上下文窗口内处理多128K的长上下文。这使得 Grok的上下文长度内存容量增加到之前16倍,从而能够利用更长文档中的信息。

e9843e343735e92ffd7fffa98fc72a7f.png

此外,该模型可以处理更长、更复杂的提示,同时在上下文窗口扩展时仍然保持其指令跟踪能力。在NIAH评估中,Grok-1.5展示了强大的检索能力,可以在长度高达128K的上下文中嵌入文本来实现检索结果。

Grok-1.5基础设施

Grok-1.5构建在基于JAX、Rust和Kubernetes的自定义分布式训练框架之上。该培训堆栈使xAI团队能够以最小的努力构建想法原型并大规模培训新架构。在大型计算集群上训练LLM的主要挑战是,最大限度地提高训练作业的可靠性和正常运行时间。该团队的自定义训练协调器可确保自动检测到有问题的节点并将其从训练作业中剔除。此外,该团队还优化了检查点、数据加载和训练作业重新启动,以最大限度地减少发生故障时的停机时间。

相关链接:https://x.ai/blog/grok-1.5

ab0884e18f12705c499fb254141a3644.gif

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。

07845ce3b3d8f5abe7f22588c5d3da77.png


出现这个错误的原因是在导入seaborn包时,无法从typing模块中导入名为'Protocol'的对象。 解决这个问题的方法有以下几种: 1. 检查你的Python版本是否符合seaborn包的要求,如果不符合,尝试更新Python版本。 2. 检查你的环境中是否安装了typing_extensions包,如果没有安装,可以使用以下命令安装:pip install typing_extensions。 3. 如果你使用的是Python 3.8版本以下的版本,你可以尝试使用typing_extensions包来代替typing模块来解决该问题。 4. 检查你的代码是否正确导入了seaborn包,并且没有其他导入错误。 5. 如果以上方法都无法解决问题,可以尝试在你的代码中使用其他的可替代包或者更新seaborn包的版本来解决该问题。 总结: 出现ImportError: cannot import name 'Protocol' from 'typing'错误的原因可能是由于Python版本不兼容、缺少typing_extensions包或者导入错误等原因造成的。可以根据具体情况尝试上述方法来解决该问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [ImportError: cannot import name ‘Literal‘ from ‘typing‘ (D:\Anaconda\envs\tensorflow\lib\typing....](https://blog.csdn.net/yuhaix/article/details/124528628)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值