8月7日-8日学习

首先是昨天看到的gemma 2 中训练2B模型用了知识蒸馏,找了一下技术报告 结果先找到了一代的半天没有看到知识蒸馏的部分 然后在二代里面找到了 只有很小的一部分

就是用小模型学习大模型的概率预测分布

然后这里的话又找到了华为发布的小模型论文

Rethinking Optimization and Architecture for Tiny Language Models

首先是关于词表的大小的讨论 这里得出的结论是 在覆盖90%之下比较好的

然后还有depth 这里的depth具体是指什么有多少个自注意力层?

参数

一是采用随机分布初始化

二是从大模型中继承 但是关于模型的差异架构如何处理

首先是找对结果影响最重要的层

这里用的是消融实验

最初始的层用于提取特征是非常重要的 但是

关于如何继承这里用了很多中方法做实验

同时还看到了csdn上网友整理的小模型从零训练的各个项目

发现自己把transformer的架构图都忘了 正好llama还没有看过架构 就以这个来学习一下

代码实现可以参考这里 大语言模型底层架构丨带你认识Transformer - 华为云开发者联盟 - 博客园 (cnblogs.com)

z深入解析LLaMA如何改进Transformer的底层结构 - 华为云开发者联盟 - 博客园 (cnblogs.com)

Transformer模型详解(图解最完整版) - 知乎 (zhihu.com)

首先是关于位置编码和词嵌入

Transformer的PE(position embedding),即位置编码理解-CSDN博客

怎么计算搞明白了 但是关于采用如此计算的原因是什么?

关于QK V计算 首先注意的是 Q要与每一个K都进行点乘

然后才能归一化softmax

8月8日

Transformer 1. Attention中的Q,K,V是什么 - 知乎 (zhihu.com)

Transformer中的Q/K/V理解_transformer q k v-CSDN博客

昨天把一个单词的QKT 计算弄清楚了

现在考虑Q K 乘法之后乘以 V

如下图 考虑  这一行是该单词对于每一个词的qk 印象力权重的结果 用这种0.3 表示1 到1 的权重为0.3 再乘以v的第一行就是第一个单词的value 加上第二单词的权重0.2乘以第一个单词的value类推

如果是用传统的矩阵乘法不容易看出来 这种分块的乘法就很不错

现在需要考虑整个multi head

对于多个不同的head这里的化h=8所以第一行Concat全部是一个单词的计算结果的不同侧面

通过linear变换让最终输出Z与输入X的维度相同 但是包含了8个头的结果

这里需要注意到Q K V维度的问题

transformer中qkv的维度是什么概念 - CSDN文库

在多头注意力后就是Add & Norm

对Transformer中Add&Norm层的理解-CSDN博客

这里的代码实践 有空在电脑上跑一下 把 2 3 4 维度从1 到 24 看看

Add 是残差连接 表示F(x) + x 这样在反向求导梯度的时候 + 1常数

假设我们输入的词向量的形状是(2,3,4),2为批次(batch),3为句子长度,4为词向量的维度,生成以下数据:

[[w11, w12, w13, w14], [w21, w22, w23, w24], [w31, w32, w33, w34]
[w41, w42, w43, w44], [w51, w52, w53, w54], [w61, w62, w63, w64]]
1
2
如果是在做BatchNorm(BN)的话,其计算过程如下:BN1=(w11+w12+w13+w14+w41+
w42+w43+w44)/8,同理会得到BN2和BN3,最终得到[BN1,BN2,BN3] 3个mean

如果是在做LayerNorm(LN)的话,则会进如下计算:LN1=(w11+w12+w13+w14+w21+
w22+w23+w24+w31+w32+w33+w34)/12,同理会得到LN2,最终得到[LN1,LN2]两个mean

如果是在做InstanceNorm(IN)的话,则会进如下计算:IN1=(w11+w12+w13+w14)/4,同理会得到IN2,IN3,IN4,IN5,IN6,六个mean,[[IN1,IN2,IN3],[IN4,IN5,IN6]]

Transformer学习笔记三:为什么Transformer要用LayerNorm/Batch Normalization & Layer Normalization (批量&层标准化) - 知乎 (zhihu.com)

 BN的实践

  • 对每一个batch进行操作,使得对于这一个batch中所有的输入数据,它们的每一个特征都是均值为0,方差为1的分布
  • 单纯把所有的输入限制为(0,1)分布也是不合理的,这样会降低数据的表达能力(第L层辛苦学到的东西,这里都暴力变成(0,1)分布了)。因此需要再加一个线性变换操作,让数据恢复其表达能力。这个线性变化中的两个参数 γ,β 是需要模型去学习的。

(93 封私信 / 80 条消息) transformer 为什么使用 layer normalization,而不是其他的归一化方法? - 知乎 (zhihu.com)

NLP_ability/深度学习自然语言处理/Transformer/NLP任务中-layer-norm比BatchNorm好在哪里.md at master · DA-southampton/NLP_ability (github.com)

Decoder结构

decoder在训练的时候是并行化的 使用了 Teacher forcing

Teacher forcing是什么? encoder-decoder框架的理解-CSDN博客

但是关于训练的时候如何计算loss具体还是有疑问

  • 20
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值