随着越来越多的人使用人工智能来提升日常生活,我们认为领先的模型和系统应该是公开可用的,以便每个人都能构建个性化的未来体验。今天,我们很高兴宣布支持整个 Llama 生态系统的最先进模型套件。我们推出了 Llama 4 Scout 和 Llama 4 Maverick,这是首批使用专家混合(MoE)架构的开源多模态模型。我们还预览了 Llama 4 Behemoth,这是世界上最智能的大型语言模型之一,也是我们迄今为止最强大的模型,它将作为新模型的“教师”。
预训练
这些模型代表了 Llama 的最佳成果,以合理的价格提供多模态智能,同时超越了显著更大的模型。为了构建下一代 Llama 模型,我们在预训练过程中采用了多种新方法。
我们的新 Llama 4 模型是我们首批使用专家混合(MoE)架构的模型。在 MoE 模型中,单个标记只会激活总参数的一部分。MoE 架构在训练和推理方面更加计算高效,并且在固定训练 FLOPs 预算下,与密集模型相比可以提供更高的质量。
例如,Llama 4 Maverick 模型拥有 170 亿活跃参数和 4000 亿总参数。我们使用交替的密集层和专家混合(MoE)层来提高推理效率。MoE 层使用 128 个路由专家和一个共享专家。每个标记都会被发送到共享专家以及 128 个路由专家中的一个。因此,尽管所有参数都存储在内存中,但在提供这些模型时只会激活总参数的一部分。这通过降低模型服务成本和延迟提高了推理效率——Llama 4 Maverick 可以在单个 NVIDIA H100 DGX 主机上轻松部署,或者通过分布式推理实现最大效率。
Llama 4 模型设计为原生多模态,采用早期融合技术将文本和视觉标记无缝集成到统一的模型主干中。早期融合是一个重大进步,因为它使我们能够与大量未标记的文本、图像和视频数据一起联合预训练模型。我们还改进了 Llama 4 的视觉编码器。该编码器基于 MetaCLIP,但与冻结的 Llama 模型一起单独训练,以更好地适应编码器到 LLM。
我们开发了一种新的训练技术,称为 MetaP,它使我们能够可靠地设置关键模型超参数,例如每层学习率和初始化比例。我们发现,选择的超参数在不同的批量大小、模型宽度、深度和训练标记值之间转移效果良好。Llama 4 通过在 200 种语言上预训练(包括超过 100 种语言,每种语言超过 10 亿个标记)实现了开源微调工作,并且总体上比 Llama 3 多了 10 倍的多语言标记。
此外,我们专注于高效的模型训练,使用 FP8 精度,而不牺牲质量,并确保高模型 FLOPs 利用率——在使用 FP8 和 32,000 个 GPU 预训练 Llama 4 Behemoth 模型时,我们实现了每 GPU 390 TFLOPs。总体训练数据混合包括超过 30 万亿个标记,这是 Llama 3 预训练混合的两倍多,包括多样化的文本、图像和视频数据集。
我们继续在所谓的“中期训练”中训练模型,以使用新的训练配方改进核心能力,包括使用专用数据集扩展长上下文。这使我们能够在提高模型质量的同时,解锁 Llama 4 Scout 的行业领先的 1000 万输入上下文长度。
后训练我们的新模型
我们的最新模型包括更小和更大的选项,以适应各种用例和开发人员需求。Llama 4 Maverick 在图像和文本理解方面提供了无与伦比的行业领先性能,能够创建跨越语言障碍的复杂 AI 应用程序。作为我们产品工作主力模型,用于通用助手和聊天用例,Llama 4 Maverick 非常适合精确的图像理解和创意写作。
在后训练 Llama 4 Maverick 模型时,最大的挑战是保持多种输入模态、推理和对话能力之间的平衡。为了混合模态,我们提出了一种精心策划的课程策略,与单独模态专家模型相比,不会牺牲性能。通过 Llama 4,我们彻底改革了我们的后训练流程,采用了一种不同的方法:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)。一个关键的发现是,SFT 和 DPO 可能会过度限制模型,限制在线 RL 阶段的探索,从而导致推理、编码和数学领域的准确性下降。为了解决这个问题,我们使用 Llama 模型作为裁判,移除了超过 50% 被标记为简单的数据,并对剩余的更难数据集进行轻量级 SFT。在随后的多模态在线 RL 阶段,通过仔细选择更难的提示,我们实现了性能的显著提升。此外,我们实施了一种持续的在线 RL 策略,即交替训练模型,然后使用它来持续过滤并仅保留中等到高难度的提示。这种策略在计算和准确性权衡方面被证明是非常有益的。然后我们进行了轻量级的 DPO 以处理与模型响应质量相关的边缘案例,有效地实现了模型智能和对话能力之间的良好平衡。管道架构和具有自适应数据过滤的持续在线 RL 策略相结合,造就了一个行业领先的通用聊天模型,具有最先进的智能和图像理解能力。
作为通用大型语言模型,Llama 4 Maverick 拥有 170 亿活跃参数、128 个专家和 4000 亿总参数,以比 Llama 3.3 70B 更低的价格提供高质量。Llama 4 Maverick 是同类中最佳的多模态模型,在编码、推理、多语言、长上下文和图像基准测试中超越了 GPT-4o 和 Gemini 2.0 等可比模型,并且在编码和推理方面与更大的 DeepSeek v3.1 竞争。
我们的较小模型 Llama 4 Scout 是一个通用模型,拥有 170 亿活跃参数、16 个专家和 1090 亿总参数,在其类别中提供了最先进的性能。Llama 4 Scout 将支持的上下文长度从 Llama 3 的 128K 戏剧性地提高到行业领先的 1000 万个标记。这为多文档摘要、解析广泛的用户活动以执行个性化任务以及在庞大代码库上进行推理等任务打开了新的可能性。
Llama 4 Scout 既在 256K 上下文长度上进行了预训练,也在其上进行了后训练,这使基础模型具备了先进的长度泛化能力。我们在诸如“检索针尖在干草堆中”的文本检索任务以及超过 1000 万个代码标记的累积负对数似然(NLLs)等任务中展示了令人信服的结果。Llama 4 架构的一个关键创新是使用交错的注意力层而没有位置嵌入。此外,我们在推理时对注意力进行温度缩放以增强长度泛化。我们将这种架构称为 iRoPE,其中“i”代表“交错”注意力层,突出了支持“无限”上下文长度的长期目标,而“RoPE”指的是大多数层中使用的旋转位置嵌入。
我们在各种图像和视频帧静止图像上训练了这两个模型,以赋予它们广泛的视觉理解能力,包括对时间活动和相关图像的理解。这使得在多图像输入和文本提示上进行视觉推理和理解任务的交互变得轻松。这些模型在多达 48 张图像上进行了预训练,并在后训练中测试了多达 8 张图像的良好结果。
推动 Llama 达到新规模:2T Behemoth
我们很高兴分享 Llama 4 Behemoth 的预览,这是一个展示其类别中先进智能的教师模型。Llama 4 Behemoth 也是一个多模态专家混合模型,拥有 2880 亿活跃参数、16 个专家和接近 2 万亿总参数。它在数学、多语言和图像基准测试中为非推理模型提供了最先进的性能,是教授较小 Llama 4 模型的完美选择。我们从 Llama 4 Behemoth 作为教师模型对 Llama 4 Maverick 模型进行了协同蒸馏,从而在最终任务评估指标上实现了显著的质量提升。我们开发了一种新的蒸馏损失函数,该函数通过训练动态加权软目标和硬目标。从 Llama 4 Behemoth 进行预训练的协同蒸馏分摊了计算成本,这些成本用于计算学生训练中大多数训练数据的蒸馏目标所需的资源密集型前向传递。对于学生训练中新增的额外新数据,我们在 Behemoth 模型上运行前向传递以创建蒸馏目标。
后训练一个拥有 2 万亿参数的模型也是一个重大挑战,这需要我们彻底大修和改进配方,从数据规模开始。为了最大化性能,我们不得不剪枝 95% 的 SFT 数据(而较小模型为 50%),以实现必要的质量和效率关注。我们还发现,轻量级 SFT 后跟大规模强化学习(RL)在模型的推理和编码能力上产生了更显著的改进。我们的 RL 配方专注于通过使用策略模型进行 pass@k 分析并制定增加提示难度的训练课程来采样难提示。我们还发现,在训练期间动态过滤掉零优势的提示,并构建包含来自多种能力的混合提示的训练批次,对于在数学、推理和编码方面提供性能提升至关重要。最后,从多种系统指令中采样对于确保模型保留其推理和编码的指令遵循能力并在各种任务中表现良好至关重要。
为 2 万亿参数模型扩展 RL 还需要由于其前所未有的规模而彻底大修我们的底层 RL 基础设施。我们优化了 MoE 并行化的设计以提高速度,从而实现更快的迭代。我们开发了一个完全异步的在线 RL 训练框架,增强了灵活性。与现有的分布式训练框架相比,后者为了将所有模型堆叠在内存中而牺牲了计算内存,我们的新基础设施允许将不同的模型灵活分配到单独的 GPU 上,根据计算速度在多个模型之间平衡资源。这一创新使训练效率比前几代提高了约 10 倍。
安全保障和保护
我们的目标是开发最有帮助和最有用的模型,同时保护和减轻最严重的风险。我们在模型开发的每个层次(从预训练到后训练)都集成了最佳实践,并提供了可调的系统级保护,以屏蔽开发人员免受对抗性用户的影响。通过这样做,我们使开发人员能够为其支持 Llama 的应用程序创建有帮助、安全和可适应的体验。
预训练和后训练保护
在预训练中,我们使用数据过滤和其他数据保护措施来保护模型。在后训练中,我们应用了一系列技术,以确保我们的模型符合对用户和开发人员有帮助的政策,包括在每个阶段应用适当的安全数据。
系统级方法
在系统级,我们开源了多种保护措施,这些措施可以帮助识别和防范潜在有害的输入和输出。这些工具可以集成到我们的 Llama 模型中,并与其他第三方工具一起使用:
- Llama Guard:我们的基于输入/输出安全的大型语言模型,基于我们与 MLCommons 开发的危害分类法。开发人员可以使用它来检测输入或输出是否违反了他们为其特定应用程序创建的策略。
- Prompt Guard:一个在大量攻击语料库上训练的分类模型,能够检测明确的恶意提示(越狱)以及包含注入输入的提示(提示注入)。
- CyberSecEval:评估,帮助 AI 模型和产品开发人员了解和减少生成式 AI 的网络安全风险。
我们从开发人员那里得知,这些工具在可以针对他们的应用程序进行定制时最有效和最有帮助。我们为开发人员提供了一个开放的解决方案,以便他们可以根据自己的需求创建最安全和最有效的体验。我们还将继续与全球合作伙伴合作,创建惠及开源社区的行业范围的系统标准。
评估和红队测试
我们在受控和可重复的方式下对模型进行系统性测试,涵盖各种场景和用例。这会产生数据,我们将这些数据重新纳入后训练中。
我们使用自动化和手动测试,通过对抗性动态探测在一系列主题上对模型进行压力测试。我们在理解和评估潜在模型风险方面取得了进展。一个例子是我们新开发的生成式攻击代理测试(GOAT)。使用 GOAT,我们通过模拟中等技能对抗性行为者的多轮交互来解决传统红队测试的局限性,这帮助我们更快地发现漏洞并提高测试覆盖率。通过将自动化添加到我们的测试工具包中,GOAT 使我们的专家人类红队成员能够专注于更具创新性的对抗领域,而自动化则专注于已知风险领域。这使得过程更加高效和有效,并使我们能够构建更好的风险定量和定性图景。
解决大型语言模型中的偏见问题
众所周知,所有领先的大型语言模型在有争议的政治和社会话题上都存在偏见问题。这主要是由于互联网上可用的训练数据类型。
我们的目标是从我们的 AI 模型中消除偏见,并确保 Llama 能够理解并表达有争议问题的双方观点。作为这项工作的一部分,我们继续使 Llama 更加响应,以便它能够回答问题,对各种不同的观点做出回应而不进行评判,并且不会偏袒某些观点。
在这个版本中,我们在这些努力上取得了进展——Llama 4 的表现显著优于 Llama 3,并且与 Grok 相当:
- Llama 4 在有争议的政治和社会话题上总体上拒绝回答的次数更少(从 Llama 3.3 的 7% 降至不到 2%)。
- Llama 4 在拒绝回答的提示上更加平衡(在一组有争议的话题问题上,不平等回答拒绝的比例现在不到 1%)。
- 我们的测试表明,Llama 4 在有争议的政治或社会话题上以强烈政治倾向回答的频率与 Grok 相当(是 Llama 3.3 的一半)。虽然我们取得了进展,但我们知道还有更多工作要做,并将继续降低这一比例。
我们为迄今为止的进展感到自豪,并仍然致力于消除我们模型中的总体偏见。
探索 Llama 生态系统
虽然模型的智能很重要,但人们也希望模型能够以个性化的方式以类似人类的速度回复。作为我们迄今为止最先进的模型,Llama 4 优化以满足这些需求。
当然,模型只是将这些体验变为现实的更大生态系统的一部分。我们专注于整个堆栈,包括新的产品集成。我们很高兴继续与我们的合作伙伴和开源社区进行的对话,并一如既往地期待看到人们在新的 Llama 生态系统中构建的丰富体验。
今天,您可以在 llama.com 和 Hugging Face 上下载 Llama 4 Scout 和 Llama 4 Maverick 模型。您还可以在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上体验基于 Llama 4 的 Meta AI。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。