【企业级核弹降临】面向企业 AI 的最佳 、高效智能、真正开放的LLM——Snowflake Arctic

Snowflake发布了一款482B的开源企业级语言模型SnowflakeArctic,以高效智能和开放性填补企业空白。Arctic在资源有限的情况下表现出与大模型相当甚至更好的性能,强调了企业用例和训练效率的重要性。
摘要由CSDN通过智能技术生成

先说评语:彦宏哥,收手吧!周围都是开源大模型!

最近大家的注意力都集中在 Llama 3 大模型上,而对于 Phi 3 和 OpenELM 的发布都不怎么关注。以至于 SD 3 只出了 API,貌似也没怎么感冒。也对也对,毕竟百度李总刚笃定闭源完压开源LLM,结果太平洋彼岸的Meta就发布了 Llama3 8B 和 Llama3 70B,连前百度大佬(现 AWS AI专家 吴恩达)都说这是生日当天最好的礼物

“我们是专业的,除非忍不住(捂嘴)” 月之暗面的CEO为什么也支持李总呢?原因也很简单,绝大多数开源的 LLM 还不足以支撑企业的需求。在这些“大人物”的面前,民间玩物那够登堂入室。不论是数据集、还是训练资源,他们都是占尽优势,同时也是开源所面临的劣势。我挺喜欢战争老电影,分享其中一段挺意思的台词:
蒋介石“无论怎么讲,会战兵力是80万对60万,优势在我”;毛主席“60万对80万,这是一锅夹生饭。夹生就夹生,也要把它吃下去。”

论持久战,开源很多时候靠爱发电都不如企业投资来的持久。就连扎克伯格也表示 Meta 需要数年时间才能从生成式人工智能中盈利。尽管 Meta 在人工智能和虚拟宇宙等新兴领域的投入超过以往任何时候,但该公司仍在努力维持其核心业务的盈利能力。扎克伯格表示,生成式AI可能需要几年时间才能成为真正的赚钱项目,但他相信这项技术最终将成为 Meta 的重要收入来源。

我只能说这是现实主义和理想主义的又一次碰撞,也是一次来之不易的碰撞,不要局限于环境,而要开眼看世界。毕竟AI发展自AlphaGO已经沉寂太久了,就连小编我也是听闻 AI绘画 和ChatGPT 来凑热闹的。

在这里插入图片描述

Snowflake Arctic

说回正题,自Grok-1发布后,开源界反响巨大——DBRX 和 C4AI Command R+ 相继发布,并宣布开源,希望填补企业空白。同时Datasets也增加了些许新的项目。就在24号,一向玩企业云计算和数据库的Snowflake,突然发布了一款仅为482B的开源企业级LLM——Snowflake Arctic。这是一款以企业为中心的顶级 LLM,它推动了具有成本效益的培训和开放性的前沿。Arctic是高效智能和真正开放的。

  • 高效智能: Arctic 在企业任务方面表现出色,例如 SQL 生成、编码和遵循基准的指令,即使与使用明显更高的计算预算训练的开源模型相比也是如此。事实上,它为具有成本效益的培训设定了新的基准,使 Snowflake 客户能够以低成本创建满足其企业需求的高质量定制模型。
  • 真正开放: Apache 2.0 许可证提供对权重和代码的无限制访问。此外,我们还开源了我们所有的数据配方和研究见解。

项目:https://github.com/Snowflake-Labs/snowflake-arctic

在 Snowflake,我们看到企业客户的 AI 需求和用例模式一致。企业希望使用 LLM 来构建对话式 SQL 数据副驾驶、代码副驾驶和 RAG 聊天机器人。从指标的角度来看,这意味着 LLM 在 SQL、代码、复杂的指令跟踪和生成扎实的答案的能力方面表现出色。我们通过对编码(HumanEval+ 和 MBPP+)、SQL 生成 (Spider) 和指令跟踪 (IFEval) 进行平均,将这些能力捕获到我们称之为企业智能的单一指标中。

Arctic 在开源 LLM 中提供顶级企业智能,它使用大约不到 200 万美元(不到 3K GPU 周)的训练计算预算来做到这一点。这意味着 Arctic 比其他使用类似计算预算训练的开源模型更强大。更重要的是,它在企业智能方面表现出色,即使与那些计算预算明显更高的训练人员相比也是如此。Arctic 的高训练效率也意味着 Snowflake 客户和整个 AI 社区可以以更实惠的方式训练自定义模型。

如图 1 所示,Arctic 在企业指标上与 LLAMA 3 8B 和 LLAMA 2 70B 相当或更好,同时使用的训练计算预算不到 1/2。同样,尽管计算预算减少了 17 倍,但 Arctic 在编码 (HumanEval+ & MBPP+)、SQL (Spider) 和指令跟踪 (IFEval) 等企业指标方面与 Llama3 70B 相当。它这样做的同时,在整体性能上保持竞争力。例如,尽管使用的计算量比 DBRX 少 7 倍,但它在语言理解和推理(11 个指标的集合)方面仍然具有竞争力,同时在数学 (GSM8K) 方面更好。


为了达到这种水平的训练效率,Arctic 使用了独特的 Dense-MoE 混合变压器架构。它将 10B 密集变压器模型与残余 128×3.66B MoE MLP 相结合,从而使用前 2 个门控选择总 480B 和 17B 有源参数。它的设计和训练使用了以下三个关键的见解和创新:

1) 多但浓缩的专家,有更多的专家选择:2021 年底,DeepSpeed 团队证明 MoE 可以应用于自动回归 LLM,在不增加计算成本的情况下显着提高模型质量。

在设计Arctic时,我们注意到,基于上述情况,模型质量的提高主要取决于MoE模型中专家的数量和参数总数,以及这些专家组合在一起的方式数量。

基于这一见解,Arctic 被设计为将 480B 参数分布在 128 个细粒度专家身上,并使用前 2 个门控来选择 17B 个有源参数。相比之下,最近的 MoE 模型的专家数量要少得多,如表 2 所示。直观地说,Arctic 利用大量总参数和许多专家来扩大顶级智能的模型容量,同时明智地从众多但浓缩的专家中进行选择,并使用适度数量的活动参数进行资源高效的训练和推理。


2)架构和系统协同设计:由于专家之间的高昂沟通开销,即使在最强大的AI训练硬件上,用大量专家培训普通的MoE架构也非常低效。但是,如果通信可以与计算重叠,则可以隐藏此开销。

我们的第二个见解是,在Arctic架构中将密集变压器与残余MoE组件(图2)相结合,使我们的训练系统能够通过通信计算重叠实现良好的训练效率,从而隐藏了很大一部分通信开销。

3)以企业为中心的数据课程:在代码生成和SQL等企业指标方面表现出色,需要的数据课程与通用指标的训练模型截然不同。在数百次小规模消融中,我们了解到,在开始时可以学习常识推理等通用技能,而编码、数学和 SQL 等更复杂的指标可以在培训的后期有效学习。人们可以类比人类的生活和教育,在人类生活和教育中,我们获得了从简单到困难的能力。因此,Arctic 接受了三阶段课程的培训,每个阶段都有不同的数据构成,第一阶段侧重于通用技能(1T tokens),后两个阶段侧重于以企业为中心的技能(1.5T 和 1T tokens)。这里显示了我们动态课程的高级摘要。

推理效率


企业智能 – 推理期间编码(HumanEval+ 和 MBPP+)、SQL 生成(爬虫)和指令跟踪 (IFEval) 与活动参数的平均值

训练效率只是北极高效智能的一个方面。推理效率对于以低成本实际部署模型同样至关重要。Arctic 代表了 MoE 模型规模的飞跃,它使用了比任何其他开源自回归 MoE 模型更多的专家和总参数。因此,要有效地在北极地区进行推理,需要一些系统见解和创新:

a) 在小批量的交互式推理中,例如,批量大小为 1,MoE 模型的推理延迟受到读取所有活动参数所需的时间的瓶颈,其中推理是内存带宽限制的。在此批量大小下,Arctic(17B 活动参数)的内存读取次数比 Code-Llama 70B 少 4 倍,比 Mixtral 8x22B(44B 活动参数)少 2.5 倍,从而实现更快的推理性能。

我们与 NVIDIA 合作,并与 NVIDIA TensorRT-LLM 和 vLLM 团队合作,为交互式推理提供了 Arctic 的初步实现。通过 FP8 量化,我们可以将 Arctic 放入单个 GPU 节点中。虽然远未完全优化,但在批量大小为 1 时,Arctic 的吞吐量超过 70+ 个代币/秒,可实现有效的交互式服务。

b) 随着批处理大小的显着增加,例如,每次转发传递数千个令牌,Arctic 从内存带宽绑定切换到计算绑定,其中推理受到每个令牌的活动参数的瓶颈。在这一点上,Arctic 的计算量比 CodeLlama 70B 和 Llama 3 70B 少 4 倍。

为了实现计算绑定推理和高相对吞吐量,这与北极地区的少量活动参数相对应(如图 3 所示),需要大批量。要实现这一点,需要有足够的 KV 缓存内存来支持大批量,同时也需要有足够的内存来存储模型的近 500B 参数。虽然具有挑战性,但这可以通过双节点推理来实现,该推理结合使用系统优化,例如 FP8 权重、分熔断和连续批处理、节点内的张量并行性和跨节点的流水线并行性。

同时,根据研究界评估LLM的指标来评估LLM也同样重要。这包括世界知识、常识推理和数学能力。


对于企业指标,与所有其他开源模型相比,无论计算类别如何,Arctic 都表现出顶级性能。对于其他指标,它在其计算类中实现了顶级性能,甚至与使用更高计算预算训练的模型保持竞争力。Snowflake Arctic 是现成企业用例的最佳开源模型。如果您希望以最低的总拥有成本 (TCO) 从头开始训练自己的模型,那么我们手册中的训练基础设施和系统优化描述应该会引起您极大的兴趣。

对于学术基准,人们一直关注世界知识指标,如MMLU来代表模型性能。借助高质量的 Web 和 STEM 数据,MMLU 会随着训练 FLOPS 而单调地向上移动。由于 Arctic 的一个目标是在保持较小的训练预算的同时优化训练效率,因此与最近的顶级模型相比,MMLU 性能自然会降低。根据这一见解,我们预计我们正在进行的训练以比 Arctic 更高的训练计算预算运行将超过 Arctic 的 MMLU 性能。我们注意到,MMLU 世界知识的表现并不一定与我们对企业智能的关注相关。

英文原文

https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/

  • 13
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值