8月7日-8日学习

Tankoldbang

已于 2024-08-11 17:57:41 修改

阅读量347

点赞数 20

文章标签：人工智能深度学习 nlp

于 2024-08-11 17:55:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tankoldbang/article/details/140986129

版权

首先是昨天看到的gemma 2 中训练2B模型用了知识蒸馏，找了一下技术报告结果先找到了一代的半天没有看到知识蒸馏的部分然后在二代里面找到了只有很小的一部分

就是用小模型学习大模型的概率预测分布

然后这里的话又找到了华为发布的小模型论文

Rethinking Optimization and Architecture for Tiny Language Models

首先是关于词表的大小的讨论这里得出的结论是在覆盖90%之下比较好的

然后还有depth 这里的depth具体是指什么有多少个自注意力层？

参数

一是采用随机分布初始化

二是从大模型中继承但是关于模型的差异架构如何处理

首先是找对结果影响最重要的层

这里用的是消融实验

最初始的层用于提取特征是非常重要的但是

关于如何继承这里用了很多中方法做实验

同时还看到了csdn上网友整理的小模型从零训练的各个项目

发现自己把transformer的架构图都忘了正好llama还没有看过架构就以这个来学习一下

代码实现可以参考这里大语言模型底层架构丨带你认识Transformer - 华为云开发者联盟 - 博客园 (cnblogs.com)

z深入解析LLaMA如何改进Transformer的底层结构 - 华为云开发者联盟 - 博客园 (cnblogs.com)

Transformer模型详解（图解最完整版） - 知乎 (zhihu.com)

首先是关于位置编码和词嵌入

Transformer的PE(position embedding),即位置编码理解-CSDN博客

怎么计算搞明白了但是关于采用如此计算的原因是什么？

关于QK V计算首先注意的是 Q要与每一个K都进行点乘

然后才能归一化softmax

8月8日

Transformer 1. Attention中的Q，K，V是什么 - 知乎 (zhihu.com)

Transformer中的Q/K/V理解_transformer q k v-CSDN博客

昨天把一个单词的QKT 计算弄清楚了

现在考虑Q K 乘法之后乘以 V

如下图考虑这一行是该单词对于每一个词的qk 印象力权重的结果用这种0.3 表示1 到1 的权重为0.3 再乘以v的第一行就是第一个单词的value 加上第二单词的权重0.2乘以第一个单词的value类推

如果是用传统的矩阵乘法不容易看出来这种分块的乘法就很不错

现在需要考虑整个multi head

对于多个不同的head这里的化h=8所以第一行Concat全部是一个单词的计算结果的不同侧面

通过linear变换让最终输出Z与输入X的维度相同但是包含了8个头的结果

这里需要注意到Q K V维度的问题

transformer中qkv的维度是什么概念 - CSDN文库

在多头注意力后就是Add & Norm

对Transformer中Add&Norm层的理解-CSDN博客

这里的代码实践有空在电脑上跑一下把 2 3 4 维度从1 到 24 看看

Add 是残差连接表示F(x) + x 这样在反向求导梯度的时候 + 1常数

假设我们输入的词向量的形状是（2，3，4），2为批次（batch），3为句子长度，4为词向量的维度，生成以下数据：

[[w11, w12, w13, w14], [w21, w22, w23, w24], [w31, w32, w33, w34]
[w41, w42, w43, w44], [w51, w52, w53, w54], [w61, w62, w63, w64]]
1
2
如果是在做BatchNorm（BN）的话，其计算过程如下：BN1=(w11+w12+w13+w14+w41+
w42+w43+w44)/8，同理会得到BN2和BN3，最终得到[BN1,BN2,BN3] 3个mean

如果是在做LayerNorm（LN）的话，则会进如下计算：LN1=(w11+w12+w13+w14+w21+
w22+w23+w24+w31+w32+w33+w34)/12，同理会得到LN2，最终得到[LN1,LN2]两个mean

如果是在做InstanceNorm（IN）的话，则会进如下计算：IN1=(w11+w12+w13+w14)/4，同理会得到IN2，IN3，IN4，IN5，IN6，六个mean，[[IN1，IN2，IN3],[IN4，IN5，IN6]]

Transformer学习笔记三：为什么Transformer要用LayerNorm/Batch Normalization & Layer Normalization （批量&层标准化) - 知乎 (zhihu.com)

BN的实践

对每一个batch进行操作，使得对于这一个batch中所有的输入数据，它们的每一个特征都是均值为0，方差为1的分布
单纯把所有的输入限制为(0,1)分布也是不合理的，这样会降低数据的表达能力（第L层辛苦学到的东西，这里都暴力变成（0,1）分布了）。因此需要再加一个线性变换操作，让数据恢复其表达能力。这个线性变化中的两个参数 γ,β 是需要模型去学习的。

(93 封私信 / 80 条消息) transformer 为什么使用 layer normalization，而不是其他的归一化方法？ - 知乎 (zhihu.com)

NLP_ability/深度学习自然语言处理/Transformer/NLP任务中-layer-norm比BatchNorm好在哪里.md at master · DA-southampton/NLP_ability (github.com)

Decoder结构

decoder在训练的时候是并行化的使用了 Teacher forcing

Teacher forcing是什么？ encoder-decoder框架的理解-CSDN博客

但是关于训练的时候如何计算loss具体还是有疑问

关注

20
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
8月7日-8日学习

首先是昨天看到的gemma 2 中训练2B模型用了知识蒸馏，找了一下技术报告结果先找到了一代的半天没有看到知识蒸馏的部分然后在二代里面找到了只有很小的一部分就是用小模型学习大模型的概率预测分布然后这里的话又找到了华为发布的小模型论文首先是关于词表的大小的讨论这里得出的结论是在覆盖90%之下比较好的然后还有depth 这里的depth具体是指什么有多少个自注意力层？参数一是采用随机分布初始化二是从大模型中继承但是关于模型的差异架构如何处理首先是找对结果影响最重要的层。
复制链接

扫一扫

Tankoldbang CSDN认证博客专家 CSDN认证企业博客

码龄3年

23: 原创

21万+: 周排名

6万+: 总排名

8507: 访问

: 等级

398: 积分

119: 粉丝

162: 获赞

4: 评论

132: 收藏

私信

关注

热门文章

最新评论

Langchain
CSDN-Ada助手: 恭喜您发布了第8篇博客“Langchain”！看到您持续创作，我感到非常激动。您对Langchain的探讨让我受益匪浅，希望您能继续分享您的见解和经验。或许下一步可以深入探讨Langchain在未来的发展趋势，以及对行业的影响。期待您的精彩文章！祝您创作愉快！
投资策略有哪些？如何选择适合自己的投资策略？
CSDN-Ada助手: 恭喜您撰写了第9篇博客！投资策略是一个非常重要的话题，选择适合自己的投资策略确实需要一番功夫。希望您在文章中能够深入探讨各种投资策略的优缺点，以及如何根据个人的风险偏好和投资目标来选择最合适的策略。期待您未来的创作能够继续深入挖掘这一主题，为读者提供更多有益的投资建议和思路。加油！
2024年工作记录
CSDN-Ada助手: 恭喜您在2024年3月6日发布了工作记录的博客！不断记录和分享工作经历是一种很好的习惯，也能够激励自己不断进步。希望您能够继续坚持下去，同时也可以尝试在下一篇博客中分享一些具体的工作经验和心得，或者结合一些实际案例来进行分析和总结。期待您更多精彩的创作！
lol 无限火力
CSDN-Ada助手: CS入门技能树或许可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
lol 无限火力
今天是昨天的明天.: 我觉得你写的实在是太好了，让零基础的我豁然开朗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。