The Llama 3 Herd of Models

UnknownBody

已于 2024-08-15 14:29:46 修改

阅读量1.3k

点赞数 29

分类专栏： LLM Daily Survey Paper 文章标签： llama 语言模型人工智能

于 2024-08-12 19:49:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/141140331

版权

LLM Daily 同时被 2 个专栏收录

1249 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

261 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《The Llama 3 Herd of Models》的翻译。

LLama3模型

摘要
1 引言
2 一般概述
3 预训练
4 后训练
5 结果
6 推理
7 视觉实验
8 语音实验
9 相关工作
10 结论

摘要

现代人工智能（AI）系统由基础模型提供支持。本文提出了一套新的基础模型，称为Llama 3。它是一组原生支持多语言、编码、推理和工具使用的语言模型。我们最大的模型是一个具有405B个参数和高达128K个token的上下文窗口的密集Transformer。本文对Llama 3进行了广泛的实证评估。我们发现，Llama 3在大量任务上提供了与GPT-4等领先语言模型相当的质量。我们公开发布了Llama 3，包括405B参数语言模型的预训练和后训练版本，以及用于输入和输出安全的Llama Guard 3模型。本文还介绍了我们通过组合方法将图像、视频和语音功能集成到Llama 3中的实验结果。我们观察到，这种方法在图像、视频和语音识别任务上与最先进的技术具有竞争力。由此产生的模型尚未广泛发布，因为它们仍在开发中。

1 引言

基础模型是语言、视觉、语音和/或其他模式的通用模型，旨在支持各种各样的人工智能任务。它们构成了许多现代人工智能系统的基础。
现代基础模型的开发包括两个主要阶段：（1）预训练阶段，使用直接的任务（如下一个单词预测或字幕）对模型进行大规模训练；（2）后训练阶段，模型被调整为遵循指令，与人类偏好保

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。