LLaMA：Open and Efficient Foundation Language Models

HanZee

已于 2023-04-02 22:11:16 修改

阅读量782

点赞数

文章标签：语言模型人工智能深度学习

于 2023-04-02 17:18:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18555105/article/details/129912400

版权

LLaMA：Open and Efficient Foundation Language Models

Introduction
Approach
- Pre-training Data
- Architecture

Introduction

在大规模数据下训练的大模型，已经展示了很好的表现，当模型足够大的时，模型会出现一个涌现的能力，如下图：

在这里插入图片描述
最近的一项研究表明，在有限的算力下，表现最好的模型不是参数最大的，而是小一点模型搭配了更多数据。

这项工作的重点是训练一系列语言模型，通过对比通常使用的更多的token进行训练，在各种推理预算下达到最佳性能。由此产生的模型被称为LLaMA，参数范围从7B到65B，与现有的最好的LLM相比，性能具有竞争力。

Approach

方法主要受到了 Chinchilla的启发，采用了大量的数据和标准的优化器。

Pre-training Data

训练数据集是多个来源的混合，如表 1 所示，涵盖了不同的领域。
在大多数情况下，我们重复使用已用于训练其他 LLM 的数据源，但仅限于使用公开可用且与开源兼容的数据。
在这里插入图片描述

Architecture

Pre-normlization
SwiGLU
Rotary Embedding

模型使用 AdamW 优化器（Loshchilov 和 Hutter，2017）进行训练，具有以下超参数：β1 = 0.9，β2 = 0.95。

使用余弦学习率计划，使最终学习率等于最大学习率的 10%。

使用 0.1 的权重衰减和 1.0 的梯度裁剪。我们使用 2, 000 个预热步骤，并根据模型的大小改变学习率和批量大小（详见表 2）。

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
LLaMA：Open and Efficient Foundation Language Models

这项工作的重点是训练一系列语言模型，通过对比通常使用的更多的token进行训练，在各种推理预算下达到最佳性能。由此产生的模型被称为LLaMA，参数范围从7B到65B，与现有的最好的LLM相比，性能具有竞争力。在大多数情况下，我们重复使用已用于训练其他 LLM 的数据源，但仅限于使用公开可用且与开源兼容的数据。最近的一项研究表明，在有限的算力下，表现最好的模型不是参数最大的，而是小一点模型搭配了更多数据。在大规模数据下训练的大模型，已经展示了很好的表现，当模型足够大的时，模型会出现一个。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HanZee 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。