Llama 2 模型

最新推荐文章于 2024-08-07 15:29:13 发布

Yuerya.

最新推荐文章于 2024-08-07 15:29:13 发布

阅读量644

点赞数 5

分类专栏： paper 文章标签： llama

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62032391/article/details/136944018

版权

paper 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文详细解读了Llama2模型，强调了其与标准TransformerDecoder的区别，包括RMSNorm与RoPE的使用，以及为何不直接缓存Q。特别提到GQA的引入以改善内存效率。

摘要由CSDN通过智能技术生成

非常清楚！！！Llama 2详解 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/649756898?utm_campaign=shareopn&utm_medium=social&utm_psn=1754103877518098432&utm_source=wechat_session一些补充理解：

序列化：将文本进行Tokenization，将其切分成单词或字符，形成Token序列。之后将文本序列转换为索引序列(语料库中的index) ---- sentencepiece （开源的文本Tokenzier工具）

input_tensor:[batch_size,seq_len,hidden_dim]

batch_size：批量大小，每次处理的样本数

seq_len：句子的长度

hidden_dim：每个word映射的embedding长度

softmax：

用于多类分类问题的激活函数，在多类分类问题中，超过两个类标签则需要类成员关系。对于长度为K的任意实向量，Softmax函数可以将其压缩为长度为K，值在[0,1]范围内，并且向量中元素的总和为1的实向量。

注意力机制（单头、多头）

Llama 2的模型结构与标准的Transformer Decoder结构基本一致，主要由32个 Transformer Block 组成，不同之处主要包括以下几点：

前置的RMSNorm层
Q在与K相乘之前，先使用RoPE进行位置编码
K V Cache，并采用Group Query Attention
FeedForward层

为什么不用缓存Q？ maybe->当前Q会和之前KV进行计算，计算结束后就不会再使用了。

缺点：访存太慢，产生内存墙

->改进GQA(进行分组共享K、V)

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Llama 2 模型

序列化：将文本进行Tokenization，将其切分成单词或字符，形成Token序列。之后将文本序列转换为索引序列(语料库中的index) ---- sentencepiece （开源的文本Tokenzier工具）中，超过两个类标签则需要类成员关系。对于长度为K的任意实向量，Softmax函数可以将其压缩为长度为K，值在[0,1]范围内，并且向量中元素的总和为1的实向量。maybe->当前Q会和之前KV进行计算，计算结束后就不会再使用了。batch_size：批量大小，每次处理的样本数。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。