近日,Meta 发布旗下最新 Llama 4 系列 AI 模型,包含 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth,Meta 称相应模型都经过了“大量未标注的文本、图像和视频数据”的训练,具备“广泛的视觉理解能力”。
Llama 4是Llama系列模型中首批采用混合专家(MoE)架构的模型。这一模型也是DeepSeek系列模型采用的架构,所谓“混合专家架构”基本上是将数据处理任务分解为子任务,然后将它们委派给更小的、专门的“专家”模型,训练和推理的计算效率更高。
Llama 4参数规模大,最先进的Llama 4 Behemoth总参数高达2万亿。Llama 4 Scout面向文档摘要与大型代码库推理任务,专为高效信息提取与复杂逻辑推理打造,共有16位“专家”、1090亿参数、170亿激活参数量;Llama 4 Maverick则专注于多模态能力,支持视觉和语音输入,具备顶级的多语言支持与编程能力,共有128位“专家”、4000亿参数、170亿激活参数量。
此外,Llama用各种图像和视频帧静止图像训练两个模型,赋予了它们广泛的视觉理解能力,支持多图像输入与文本提示的无缝交互,用于视觉推理和理解任务。Llama在长文本能力上也取得了突破,具有超大的上下文窗口长度。Llama 4 Scout模型支持高达1000万token的上下文窗口,刷新了开源模型的纪录。
在Llama 4发布之际,OpenAI首席执行官山姆·奥特曼也对外透露了公司的模型发布计划。他表示,OpenAI可能在几周后发布最新的推理模型o3和最新的基座模型o4-mini,然后在几个月后推出GPT-5。