开源大模型LLaMA架构介绍

写代码的中青年

于 2024-08-20 15:51:11 发布

阅读量480

点赞数 14

分类专栏：大模型文章标签： llama 人工智能大模型 LLM python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43128256/article/details/141360647

版权

大模型专栏收录该内容

63 篇文章 31 订阅

订阅专栏

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

swift与Internvl下的多模态大模型分布式微调指南（附代码和数据）
多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）
多模态大模型Internvl-2-26B的OCR赋能方案（附代码）
miniconda+xinference的大模型推理部署指南
Mem0：大模型最强赋能“有记忆的LLM”
再谈Agent：Dify智能体实现Txet2SQL
Moe模式：或将是最好的大模型应用开发路径
一文带你了解大模型RAG
详细记录swfit微调interVL2-8B多模态大模型进行目标检测（附代码）
DIfy中集成magic-pdf实现文档解析agent与多模态大模型图文问答
大模型Prompt trick：利用大模型同情心提升模型性能
一文带你入门大模型微调
开源大模型LLaMA架构介绍

文章目录

大模型相关目录
开源大模型LLaMA架构介绍
Llama-2
- Grouped-Query Attention (GQA) (Ainslie et al., 2023)
中文LLaMA&Alpaca大模型系列

开源大模型LLaMA架构介绍

抛砖引玉，用最近获取的一些资料，介绍一些羊驼模型的技术点和发展历史。

ChatGPT等商业大模型并不“Open”

• 以ChatGPT为代表的商业大模型不论是在效果上还是用户体验上都具有显著优势
• 然而，由于商业大模型的封闭性，使得整个模型属于“黑盒”，不利于开放透明的技术研究
• 学术界需要开源开放的大模型以供未来的技术探索与研究

LLaMA

Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA)
• 2023年2月，Meta（原Facebook）推出了LLaMA大模型，使用了1.4T token进行训练
• 虽然最大模型只有65B，但在相关评测任务上的效果可以媲美甚至超过千亿级大模型
• 被认为是近期开源大模型百花齐放的开端之一，
“羊驼”系列模型及其生态快速发展
• 主干模型仍然是传统的transformer decoder结构
• 主要技术：Pre-normalization, SwiGLU activation, Rotary Embedding (RoPE)

模型技术：RMSNorm (Zhang and Sennrich, 2019)

• RMSNorm相比LayerNorm计算更加简单而且更有效，经常被用于大模型训练中
• LLaMA模型中的“norm”均使用了RMSNorm

在这里插入图片描述

模型技术：SwiGLU (Shazeer, 2020)

• 谷歌提出的优化Transformer全连接层的新激活方法，在后续的PaLM等模型中也得到应用
• LLaMA中直接将FFN中的ReLU替换为SwiGLU，并将维度放缩为(2/3) ⋅ 4d

在这里插入图片描述

模型技术：SwiGLU (Shazeer, 2020)

• 在GLUE、SQuAD上的实验结果表明，SwiGLU、ReGLU相比其他激活函数具有一定性能优势
• 基于Gating的方法普遍优于单纯的激活函数（ReLU/GELU/Swish等）
在这里插入图片描述

模型技术：Rotary Embeddings, RoPE (Su et al., 2021)

• 绝对位置编码

在这里插入图片描述

Llama-2

在这里插入图片描述

Grouped-Query Attention (GQA) (Ainslie et al., 2023)

• GQA是一种提升推理速度的方法，主要针对多头注意力机制进行改进，与KV cache搭配使用

在这里插入图片描述

中文LLaMA&Alpaca大模型系列

在这里插入图片描述

写代码的中青年

关注

14
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
开源大模型LLaMA架构介绍

抛砖引玉，用最近获取的一些资料，介绍一些羊驼模型的技术点和发展历史。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

写代码的中青年 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。