LLaMA系列模型

本文介绍了Meta的LLaMA大模型系列,包括其采用的RMSNorm归一化、SwiGLU激活函数、旋转位置嵌入(RoPE)等技术,以及衍生出的Alpaca、Llama-2和Code Llama模型。Alpaca通过指令精调提升LLaMA的执行能力,Llama-2引入GQA技术提高推理速度,而Code Llama专注于代码生成和理解。
摘要由CSDN通过智能技术生成

1.LLama

1.1 简介

Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA)

2023年2月,Meta(原Facebook)推出了LLaMA大模型,使用了1.4T token进行训练,虽然最大模型只有65B,但在相关评测任务上的效果可以媲美甚至超过千亿级大模型,被认为是近期开源大模型百花⻬放的开端之一,“羊驼”系列模型及其生态快速发展。

LLaMA 所采用的 Transformer 结构和细节,与标准的 Transformer 架构不同的地方包括采用了前置层归一化(Pre-normalization)并使用 RMSNorm 归一化函数 (Normalizing Function)、激活函数更换为 SwiGLU,并使用了旋转位置嵌入(RoP),整体 Transformer 架构与 GPT-2 类似。

在这里插入图片描述

1.2 RMSNorm归一化函数

为了使得模型训练过程更加稳定,GPT-2 相较于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值