本文是LLM系列文章,针对《The Llama 3 Herd of Models》的翻译。
摘要
现代人工智能(AI)系统由基础模型提供支持。本文提出了一套新的基础模型,称为Llama 3。它是一组原生支持多语言、编码、推理和工具使用的语言模型。我们最大的模型是一个具有405B个参数和高达128K个token的上下文窗口的密集Transformer。本文对Llama 3进行了广泛的实证评估。我们发现,Llama 3在大量任务上提供了与GPT-4等领先语言模型相当的质量。我们公开发布了Llama 3,包括405B参数语言模型的预训练和后训练版本,以及用于输入和输出安全的Llama Guard 3模型。本文还介绍了我们通过组合方法将图像、视频和语音功能集成到Llama 3中的实验结果。我们观察到,这种方法在图像、视频和语音识别任务上与最先进的技术具有竞争力。由此产生的模型尚未广泛发布,因为它们仍在开发中。
1 引言
基础模型是语言、视觉、语音和/或其他模式的通用模型,旨在支持各种各样的人工智能任务。它们构成了许多现代人工智能系统的基础。
现代基础模型的开发包括两个主要阶段:(1)预训练阶段,使用直接的任务(如下一个单词预测或字幕)对模型进行大规模训练;(2)后训练阶段,模型被调整为遵循指令,与人类偏好保