大模型最全八股和答案（下）

最新推荐文章于 2024-06-06 22:08:29 发布

zenRRan

最新推荐文章于 2024-06-06 22:08:29 发布

阅读量655

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247523765&idx=4&sn=dc2a00d1f5f0e1bb8aeb5b67491a0726&chksm=eb538926dc240030085c0adb210f73689e87cc4a1d09a96c4a4552905343e58611dd01159123&scene=126&sessionid=0

版权

来自：包包算法笔记

做一个专门面向年轻NLPer的每周在线论文分享平台

[x] 大模型（LLMs）基础面
- [x] 1. 目前主流的开源模型体系有哪些？
- [x] 2. prefix LM 和 causal LM 区别是什么？
- [x] 3. 涌现能力是啥原因？
- [x] 4. 大模型LLM的架构介绍？
[x] 大模型（LLMs）进阶面
- [x] 1. llama 输入句子长度理论上可以无限长吗？
- [x] 1. 什么是 LLMs 复读机问题？
- [x] 2. 为什么会出现 LLMs 复读机问题？
- [x] 3. 如何缓解 LLMs 复读机问题？
- [x] 1. LLMs 复读机问题
- [x] 2. llama 系列问题
- [x] 3. 什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？
- [x] 4. 各个专业领域是否需要各自的大模型来服务？
- [x] 5. 如何让大模型处理更长的文本？
[x] 大模型（LLMs）微调面
- [x] 1. 如果想要在某个模型基础上做全参数微调，究竟需要多少显存？
- [x] 2. 为什么SFT之后感觉LLM傻了?
- [x] 3. SFT 指令微调数据如何构建?
- [x] 4. 领域模型Continue PreTrain 数据选取？
- [x] 5. 领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？
- [x] 6. 领域模型Continue PreTrain ，如何让模型在预训练过程中就学习到更多的知识？
- [x] 7. 进行SFT操作的时候，基座模型选用Chat还是Base?
- [x] 8. 领域模型微调指令&数据输入格式要求？
- [x] 9. 领域模型微调领域评测集构建？
- [x] 10. 领域模型词表扩增是不是有必要的？
- [x] 11. 如何训练自己的大模型？
- [x] 12. 训练中文大模型有啥经验？
- [x] 13. 指令微调的好处？
- [x] 14. 预训练和微调哪个阶段注入知识的？
- [x] 15. 想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？
- [x] 16. 多轮对话任务如何微调模型？
- [x] 17. 微调后的模型出现能力劣化，灾难性遗忘是怎么回事？
- [x] 18. 微调模型需要多大显存？
- [x] 19. 大模型LLM进行SFT操作的时候在学习什么？
- [x] 20. 预训练和SFT操作有什么不同
- [x] 21. 样本量规模增大，训练出现OOM错
- [x] 22. 大模型LLM进行SFT 如何对样本进行优化？
- [x] 23. 模型参数迭代实验
[x] 大模型（LLMs）langchain面
- [x] 1. 基于LLM+向量库的文档对话基础面
- [x] 2. 基于LLM+向量库的文档对话优化面
- [ ] 3. 基于LLM+向量库的文档对话工程示例面
- [x] 1. LLMs 存在模型幻觉问题，请问如何处理？
- [x] 2. 基于LLM+向量库的文档对话思路是怎么样？
- [x] 3. 基于LLM+向量库的文档对话核心技术是什么？
- [x] 4. 基于LLM+向量库的文档对话 prompt 模板如何构建？
- [x] 1. 痛点1：文档切分粒度不好把控，既担心噪声太多又担心语义信息丢失
- [x] 2. 痛点2：在基于垂直领域表现不佳
- [x] 3. 痛点3：langchain 内置问答分句效果不佳问题
- [x] 4. 痛点4：如何尽可能召回与query相关的Document 问题
- [x] 5. 痛点5：如何让LLM基于query和context得到高质量的response
- [ ] 1. 避坑记录
- [ ] 2. 本地知识库问答系统（Langchain-chatGLM）
- [x] 1. 什么是 LangChain?
- [x] 2. LangChain 包含哪些核心概念？
- [x] 3. 什么是 LangChain Agent?
- [x] 4. 如何使用 LangChain ?
- [x] 5. LangChain 支持哪些功能?
- [x] 6. 什么是 LangChain model?
- [x] 7. LangChain 包含哪些特点?
- [x] 8. LangChain 如何使用?
- [ ] 9. LangChain 存在哪些问题及方法方案？
- [x] 10. LangChain 替代方案？
- [x] 1. LangChain 中 Components and Chains 是什么？
- [x] 2. LangChain 中 Prompt Templates and Values 是什么？
- [x] 3. LangChain 中 Example Selectors 是什么？
- [x] 4. LangChain 中 Output Parsers 是什么？
- [x] 5. LangChain 中 Indexes and Retrievers 是什么？
- [x] 6. LangChain 中 Chat Message History 是什么？
- [x] 7. LangChain 中 Agents and Toolkits 是什么？
- [x] 1. LangChain 如何调用 LLMs 生成回复？
- [x] 2. LangChain 如何修改提示模板？
- [x] 3. LangChain 如何链接多个组件处理一个特定的下游任务？
- [x] 4. LangChain 如何Embedding & vector store？
- [x] 1. LangChain 低效的令牌使用问题
- [ ] 2. LangChain 文档的问题
- [ ] 3. LangChain 太多概念容易混淆，过多的“辅助”函数问题
- [ ] 4. LangChain 行为不一致并且隐藏细节问题
- [x] 5. LangChain 缺乏标准的可互操作数据类型问题
- [x] 大模型（LLMs）langchain 面
- [x] 基于LLM+向量库的文档对话经验面
[x] 大模型（LLMs）参数高效微调(PEFT) 面
- [x] 一、LoRA篇
- [x] 二、QLoRA篇
- [x] 三、AdaLoRA篇
- [x] 四、LoRA权重是否可以合入原模型？
- [ ] 五、ChatGLM-6B LoRA后的权重多大？
- [x] 六、LoRA 微调优点是什么？
- [x] 七、LoRA微调方法为啥能加速训练？
- [x] 八、如何在已有LoRA模型上继续训练？
- [x] 1.1 什么是 LoRA？
- [x] 1.2 LoRA 的思路是什么？
- [x] 1.3 LoRA 的特点是什么？
- [x] 2.1 QLoRA 的思路是怎么样的？
- [x] 2.2 QLoRA 的特点是什么？
- [x] 3.1 AdaLoRA 的思路是怎么样的？
- [x] 一、为什么需要提示学习（Prompting）？
- [x] 二、什么是提示学习（Prompting）？
- [x] 三、提示学习（Prompting）有什么优点？
- [x] 四、提示学习（Prompting）有哪些方法，能不能稍微介绍一下它们间？
- [x] 4.4.1 为什么需要 P-tuning v2？
- [x] 4.4.2 P-tuning v2 思路是什么？
- [x] 4.4.3 P-tuning v2 优点是什么？
- [x] 4.4.4 P-tuning v2 缺点是什么？
- [x] 4.3.1 为什么需要 P-tuning？
- [x] 4.3.2 P-tuning 思路是什么？
- [x] 4.3.3 P-tuning 优点是什么？
- [x] 4.3.4 P-tuning 缺点是什么？
- [x] 4.2.1 为什么需要指示微调（Prompt-tuning）？
- [x] 4.2.2 指示微调（Prompt-tuning）思路是什么？
- [x] 4.2.3 指示微调（Prompt-tuning）优点是什么？
- [x] 4.2.4 指示微调（Prompt-tuning）缺点是什么？
- [x] 4.2.5 指示微调（Prompt-tuning）与 Prefix-tuning 区别是什么？
- [x] 4.2.6 指示微调（Prompt-tuning）与 fine-tuning 区别是什么？
- [x] 4.1.1 为什么需要前缀微调（Prefix-tuning）？
- [x] 4.1.2 前缀微调（Prefix-tuning）思路是什么？
- [x] 4.1.3 前缀微调（Prefix-tuning）的优点是什么？
- [x] 4.1.4 前缀微调（Prefix-tuning）的缺点是什么？
- [x] 4.1 前缀微调（Prefix-tuning）篇
- [x] 4.2 指示微调（Prompt-tuning）篇
- [x] 4.3 P-tuning 篇
- [x] 4.4 P-tuning v2 篇
- [x] 一、为什么需要适配器微调（Adapter-tuning）？
- [x] 二、适配器微调（Adapter-tuning）思路？
- [x] 三、适配器微调（Adapter-tuning）特点是什么？
- [x] 四、AdapterFusion 思路是什么？
- [x] 五、AdapterDrop 思路是什么？
- [x] 六、AdapterDrop 特点是什么？
- [x] 七、MAM Adapter 思路是什么？
- [x] 八、MAM Adapter 特点是什么？
- [x] 微调方法是啥？如何微调？
- [x] 为什么需要 PEFT？
- [x] 介绍一下 PEFT？
- [x] PEFT 有什么优点？
- [x] 微调方法批处理大小模式GPU显存速度？
- [x] Peft 和全量微调区别？
- [x] 多种不同的高效微调方法对比
- [x] 当前高效微调技术存在的一些问题
- [x] 高效微调技术最佳实践
- [x] PEFT 存在问题？
- [x] 能不能总结一下各种参数高效微调方法？
- [x] 大模型（LLMs）参数高效微调(PEFT) 面
- [x] 适配器微调（Adapter-tuning）篇
- [x] 提示学习（Prompting）
- [x] LoRA 系列篇
[x] 大模型（LLMs）推理面
- [x] 1. 为什么大模型推理时显存涨的那么多还一直占着？
- [x] 2. 大模型在gpu和cpu上推理速度如何？
- [x] 3. 推理速度上，int8和fp16比起来怎么样？
- [x] 4. 大模型有推理能力吗？
- [x] 5. 大模型生成时的参数怎么设置？
- [x] 6. 有哪些省内存的大语言模型训练/微调/推理方法？
- [x] 7. 如何让大模型输出合规化
- [x] 8. 应用模式变更
[x] 大模型（LLMs）评测面
- [x] 大模型怎么评测？
- [x] 大模型的honest原则是如何实现的？
- [x] 模型如何判断回答的知识是训练过的已知的知识，怎么训练这种能力？
[x] 大模型（LLMs）强化学习面
- [x] 奖励模型需要和基础模型一致吗？
- [x] RLHF 在实践过程中存在哪些不足？
- [x] 如何解决人工产生的偏好数据集成本较高，很难量产问题？
- [x] 如何解决三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢问题？
- [x] 如何解决 PPO 的训练过程同时存在4个模型（2训练，2推理），对计算资源的要求较高问题？
[x] 大模型（LLMs）软硬件配置面
[x] 大模型（LLMs）训练集面
- [x] SFT（有监督微调）的数据集格式？
- [x] RM（奖励模型）的数据格式？
- [x] PPO（强化学习）的数据格式？
- [x] 找数据集哪里找？
- [x] 微调需要多少条数据？
- [x] 有哪些大模型的训练集？
- [x] 进行领域大模型预训练应用哪些数据集比较好？
[ ] 大模型（LLMs）显存问题面
[ ] 大模型（LLMs）分布式训练面
[x] 大模型（LLMs）agent 面
- [x] 如何给LLM注入领域知识？
- [x] 如果想要快速体验各种模型，该怎么办？
[ ] Token及模型参数准备篇
- [x] 预训练数据 Token 重复是否影响模型性能？
- [ ] SFT需要训练Token数？
[ ] LLMs 位置编码篇
- [x] 6.1 ALiBi (Attention with Linear Biases) 思路是什么？
- [x] 6.2 ALiBi (Attention with Linear Biases) 的偏置矩阵是什么？有什么作用？
- [x] 6.3 ALiBi (Attention with Linear Biases) 有什么优点？
- [ ] 6.4 ALiBi (Attention with Linear Biases) 被哪些 LLMs 应用？
- [x] 5.1 什么是长度外推问题？
- [x] 5.2 长度外推问题的解决方法有哪些？
- [x] 4.1 旋转位置编码 RoPE 思路是什么？
- [ ] 4.2 推导一下旋转位置编码 RoPE ？
- [x] 4.3 旋转位置编码 RoPE 有什么优点？
- [ ] 4.4 旋转位置编码 RoPE 被哪些 LLMs 应用？
- [x] 1 什么是位置编码？
- [x] 2 什么是绝对位置编码？
- [x] 3 什么是相对位置编码？
- [ ] 4 旋转位置编码 RoPE篇
- [ ] 5 长度外推问题篇
- [ ] 6 ALiBi (Attention with Linear Biases)篇
[ ] LLMs Tokenizer 篇
- [x] Byte-Pair Encoding(BPE)篇
- [x] WordPiece 篇
- [x] SentencePiece 篇
- [x] 对比篇
- [x] 1 Byte-Pair Encoding(BPE) 如何构建词典？
- [x] 1 WordPiece 与 BPE 异同点是什么？
- [x] 简单介绍一下 SentencePiece 思路？
- [x] 1 举例介绍一下不同大模型LLMs 的分词方式？
- [x] 2 介绍一下不同大模型LLMs 的分词方式的区别？
- [x] LLMs Tokenizer 篇
[x] Layer Normalization 篇
- [x] LLMs 各模型分别用了哪种 Layer normalization？
- [x] 1 LN 在 LLMs 中的不同位置有什么区别么？如果有，能介绍一下区别么？
- [x] Layer Norm 篇
- [x] RMS Norm 篇（均方根 Norm）
- [x] Deep Norm 篇
- [x] Deep Norm 有什么优点？
- [x] Layer Norm 的计算公式写一下？
- [x] RMS Norm 的计算公式写一下？
- [x] RMS Norm 相比于 Layer Norm 有什么特点？
- [x] Deep Norm 思路？
- [x] 写一下 Deep Norm 代码实现？
- [x] Layer normalization-方法篇
- [x] Layer normalization-位置篇
- [x] Layer normalization 对比篇

答案

前部分传送门：大模型最全八股和答案（上）大模型最全八股和答案（中）

LLMs Tokenizer 篇

Byte-Pair Encoding(BPE)篇
- 1 Byte-Pair Encoding(BPE) 如何构建词典？
  💡
  Byte-Pair Encoding（BPE）是一种常用的无监督分词方法，用于将文本分解为子词或字符级别的单位。BPE的词典构建过程如下：
  最终得到的词典即为BPE的词典。通过BPE算法，可以将文本分解为多个子词，其中一些子词可能是常见的词汇，而其他子词则是根据输入文本的特点生成的。这种方式可以更好地处理未登录词和稀有词，并提高模型对复杂词汇和短语的处理能力。

初始化词典：将每个字符视为一个初始的词。例如，对于输入文本"hello world"，初始词典可以包含{'h', 'e', 'l', 'o', 'w', 'r', 'd'}。
统计词频：对于每个词，统计其在文本中的频率。例如，在"hello world"中，'h'出现1次，'e'出现1次，'l'出现3次，'o'出现2次，'w'出现1次，'r'出现1次，'d'出现1次。
合并频率最高的词对：在每次迭代中，选择频率最高的词对进行合并。合并的方式是将两个词连接起来，并用一个特殊的符号（如"_"）分隔。例如，在初始词典中，选择频率最高的词对"l"和"l"，将它们合并为"ll"，更新词典为{'h', 'e', 'll', 'o', 'w', 'r', 'd'}。
更新词频：更新合并后的词频。对于合并的词，统计其在文本中的频率。例如，在"hello world"中，'h'出现1次，'e'出现1次，'ll'出现3次，'o'出现2次，'w'出现1次，'r'出现1次，'d'出现1次。
重复步骤3和4：重复步骤3和4，直到达到预设的词典大小或者满足其他停止条件。每次迭代都会合并频率最高的词对，并更新词频。

WordPiece 篇

1 WordPiece 与 BPE 异同点是什么？
💡
WordPiece和BPE（Byte-Pair Encoding）都是常用的无监督分词方法，它们有一些相似之处，但也存在一些差异。
相似点：
不同点：
总体而言，WordPiece和BPE都是有效的分词方法，选择使用哪种方法取决于具体的任务需求和语料特点。

分词目标：WordPiece和BPE都旨在将文本分解为子词或字符级别的单位，以便更好地处理未登录词和稀有词，提高模型对复杂词汇和短语的处理能力。
无监督学习：WordPiece和BPE都是无监督学习方法，不需要依赖外部的标注数据，而是通过分析输入文本自动构建词典。

拆分策略：WordPiece采用贪婪的自顶向下的拆分策略，将词汇表中的词分解为更小的子词。它使用最大似然估计来确定最佳的分割点，并通过词频来更新词典。BPE则采用自底向上的拆分策略，通过合并频率最高的词对来构建词典。它使用词频来选择合并的词对，并通过更新词频来更新词典。
分割粒度：WordPiece通常将词分解为更小的子词，例如将"running"分解为"run"和"##ning"。这些子词通常以"##"前缀表示它们是一个词的一部分。BPE则将词分解为更小的子词或字符级别的单位。它不使用特殊的前缀或后缀来表示子词。
处理未登录词：WordPiece和BPE在处理未登录词时有所不同。WordPiece通常将未登录词分解为更小的子词，以便模型可以更好地处理它们。而BPE则将未登录词作为单独的词处理，不进行进一步的拆分。

SentencePiece 篇

简单介绍一下 SentencePiece 思路？
💡
SentencePiece是一种基于BPE算法的分词工具，旨在将文本分解为子词或字符级别的单位。与传统的BPE算法不同，SentencePiece引入了一种更灵活的训练方式，可以根据不同任务和语料库的需求进行自定义。
SentencePiece的思路如下：
通过SentencePiece，可以根据不同任务和语料库的需求，自定义分词模型。它可以更好地处理未登录词和稀有词，提高模型对复杂词汇和短语的处理能力。同时，SentencePiece还支持多种语言和编码方式，可以广泛应用于自然语言处理任务中。

初始化词典：将每个字符视为一个初始的词。例如，对于输入文本"hello world"，初始词典可以包含{'h', 'e', 'l', 'o', 'w', 'r', 'd'}。
统计词频：对于每个词，统计其在文本中的频率。例如，在"hello world"中，'h'出现1次，'e'出现1次，'l'出现3次，'o'出现2次，'w'出现1次，'r'出现1次，'d'出现1次。
合并频率最高的词对：在每次迭代中，选择频率最高的词对进行合并。合并的方式是将两个词连接起来，并用一个特殊的符号（如"_"）分隔。例如，在初始词典中，选择频率最高的词对"l"和"l"，将它们合并为"ll"，更新词典为{'h', 'e', 'll', 'o', 'w', 'r', 'd'}。
更新词频：更新合并后的词频。对于合并的词，统计其在文本中的频率。例如，在"hello world"中，'h'出现1次，'e'出现1次，'ll'出现3次，'o'出现2次，'w'出现1次，'r'出现1次，'d'出现1次。
重复步骤3和4：重复步骤3和4，直到达到预设的词典大小或者满足其他停止条件。每次迭代都会合并频率最高的词对，并更新词频。
训练模型：根据得到的词典，训练一个分词模型。模型可以根据需求选择将文本分解为子词或字符级别的单位。

对比篇

LayerNormalization

1 举例介绍一下不同大模型LLMs 的分词方式？
💡
大模型语言模型（Large Language Models，LLMs）通常采用不同的分词方式，这些方式可以根据任务和语料库的不同进行调整。以下是一些常见的大模型LLMs的分词方式的举例：
需要注意的是，不同的大模型LLMs可能采用不同的分词方式，甚至在同一个模型中，可以根据任务和语料库的需求进行调整。这些分词方式的选择会对模型的性能和效果产生影响，因此需要根据具体情况进行选择和调整。
2 介绍一下不同大模型LLMs 的分词方式的区别？
💡
不同的大模型LLMs（Language Models）在分词方式上可能存在一些区别。以下是一些常见的分词方式及其区别：
需要注意的是，不同的大模型LLMs可能在分词方式上有所差异，具体的实现和效果可能因模型的结构、训练数据和任务设置而有所不同。选择适合特定任务和语言的分词方式是很重要的。

基于规则的分词：这种分词方式使用预定义的规则和模式来切分文本。例如，可以使用空格、标点符号或特定的字符来确定词语的边界。这种方法简单直接，但对于复杂的语言和文本结构可能不够准确。
基于统计的分词：这种分词方式使用统计模型来确定词语的边界。通常会使用大量的标注数据来训练模型，并根据词语的频率和上下文来进行切分。这种方法相对准确，但对于未见过的词语或特定领域的术语可能不够准确。
基于深度学习的分词：这种分词方式使用深度学习模型，如循环神经网络（RNN）或Transformer模型，来进行分词。这些模型可以学习文本的上下文信息，并根据语义和语法规则来进行切分。这种方法可以处理复杂的语言结构和未见过的词语，但需要大量的训练数据和计算资源。
基于预训练模型的分词：最近的研究表明，使用预训练的语言模型，如BERT、GPT等，可以在分词任务上取得很好的效果。这些模型在大规模的文本数据上进行预训练，并能够学习到丰富的语言表示。在具体的分词任务中，可以通过在预训练模型上进行微调来进行分词。这种方法具有较高的准确性和泛化能力。

基于词典的分词：这是最常见的分词方式之一，使用一个预先构建好的词典来将文本分解为单词。例如，BERT模型使用WordPiece分词器，将文本分解为词片段（subword units），并在词典中查找匹配的词片段。
基于字符的分词：这种方式将文本分解为单个字符或者字符级别的单位。例如，GPT模型使用字节对编码（Byte Pair Encoding，BPE）算法，将文本分解为字符或字符片段。
基于音节的分词：对于一些语言，特别是拼音文字系统，基于音节的分词方式更为常见。这种方式将文本分解为音节或音节级别的单位。例如，对于中文，可以使用基于音节的分词器将文本分解为音节。
基于规则的分词：有些语言具有明确的分词规则，可以根据这些规则将文本分解为单词。例如，日语中的分词可以基于汉字辞书或者语法规则进行。
基于统计的分词：这种方式使用统计模型来判断文本中的分词边界。例如，隐马尔可夫模型（Hidden Markov Model，HMM）可以通过训练来预测最可能的分词边界。

[[#Layer normalization-方法篇|Layer normalization-方法篇]]

[[#Deep Norm 篇#Deep Norm 思路？|Deep Norm 思路？]]
[[#Deep Norm 篇#写一下 Deep Norm 代码实现？|写一下 Deep Norm 代码实现？]]
[[#RMS Norm 篇（均方根 Norm）#RMS Norm 的计算公式写一下？|RMS Norm 的计算公式写一下？]]
[[#RMS Norm 篇（均方根 Norm）#RMS Norm 相比于 Layer Norm 有什么特点？|RMS Norm 相比于 Layer Norm 有什么特点？]]
[[#Layer Norm 篇#Layer Norm 的计算公式写一下？|Layer Norm 的计算公式写一下？]]
[[#Layer normalization-方法篇#Layer Norm 篇|Layer Norm 篇]]
[[#Layer normalization-方法篇#RMS Norm 篇（均方根 Norm）|RMS Norm 篇（均方根 Norm）]]
[[#Layer normalization-方法篇#Deep Norm 篇|Deep Norm 篇]]
[[#Layer normalization-方法篇#Deep Norm 有什么优点？|Deep Norm 有什么优点？]]

[[#Layer normalization-位置篇|Layer normalization-位置篇]]

[[#Layer normalization-位置篇#1 LN 在 LLMs 中的不同位置有什么区别么？如果有，能介绍一下区别么？|1 LN 在 LLMs 中的不同位置有什么区别么？如果有，能介绍一下区别么？]]

[[#Layer normalization 对比篇|Layer normalization 对比篇]]

[[#Layer normalization 对比篇#LLMs 各模型分别用了哪种 Layer normalization？|LLMs 各模型分别用了哪种 Layer normalization？]]

Layer normalization-方法篇

Layer Norm 篇

Layer Norm 的计算公式写一下？

Layer Norm（层归一化）是一种用于神经网络中的归一化技术，用于提高模型的训练效果和泛化能力。其计算公式如下：

给定输入，其维度为，Layer Norm 的计算公式为：

其中，是沿最后一个维度的均值，是沿最后一个维度的标准差，和是可学习的缩放因子和偏置项。表示逐元素相乘。

具体计算过程如下：

计算均值：
计算标准差：
计算归一化的：
计算缩放因子和偏置项：

其中，和是可学习的参数，可以通过反向传播进行训练。

Layer Norm 的作用是将每个样本的特征进行归一化，使得特征在不同样本之间具有相似的分布，有助于提高模型的训练效果和泛化能力。

RMS Norm 篇（均方根 Norm）

RMS Norm 的计算公式写一下？

RMS Norm（均方根归一化）是一种用于神经网络中的归一化技术，用于提高模型的训练效果和泛化能力。其计算公式如下：

给定输入，其维度为，RMS Norm 的计算公式为：

其中，是一个小的常数，用于避免分母为零。

具体计算过程如下：

计算的平方：
计算平方的均值：
计算归一化的：

RMS Norm 的作用是通过计算输入的均方根，将每个样本的特征进行归一化，使得特征在不同样本之间具有相似的尺度，有助于提高模型的训练效果和泛化能力。

RMS Norm 相比于 Layer Norm 有什么特点？

RMS Norm（Root Mean Square Norm）和 Layer Norm 是两种常用的归一化方法，它们在实现上有一些不同之处。

计算方式：RMS Norm 是通过计算输入数据的平方均值的平方根来进行归一化，而 Layer Norm 是通过计算输入数据在每个样本中的平均值和方差来进行归一化。
归一化范围：RMS Norm 是对整个输入数据进行归一化，而 Layer Norm 是对每个样本进行归一化。
归一化位置：RMS Norm 通常应用于循环神经网络（RNN）中的隐藏状态，而 Layer Norm 通常应用于卷积神经网络（CNN）或全连接层中。
归一化效果：RMS Norm 在处理长序列数据时可能会出现梯度消失或梯度爆炸的问题，而 Layer Norm 能够更好地处理这些问题。

综上所述，RMS Norm 和 Layer Norm 在计算方式、归一化范围、归一化位置和归一化效果等方面存在一些差异，适用于不同的神经网络结构和任务。选择哪种归一化方法应根据具体情况进行评估和选择。

Deep Norm 篇

Deep Norm 思路？

Deep Norm 是一种基于归一化的深度学习模型优化方法，其思路是通过在深度神经网络中引入多层归一化操作，以改善模型的训练和泛化性能。

Deep Norm 的主要思想是在网络的每一层之间插入归一化层，以减小输入数据的分布差异，从而加速收敛并提高模型的泛化能力。与传统的批归一化（Batch Normalization）不同，Deep Norm 在每一层都进行归一化，而不是仅在特定层进行。

Deep Norm 的具体步骤如下：

输入数据：将输入数据传递给网络的第一层。
归一化层：在网络的每一层之间插入归一化层。归一化层的作用是将每层的输入数据进行归一化，使其均值为0，方差为1。这可以减小数据的分布差异，有助于提高模型的稳定性和泛化性能。
激活函数：在归一化层之后应用激活函数，以引入非线性变换。
下一层：将经过归一化和激活函数处理的数据传递给网络的下一层。

通过在每一层引入归一化操作，Deep Norm 可以有效地解决深度神经网络中的梯度消失和梯度爆炸问题，并提高模型的收敛速度和泛化性能。此外，Deep Norm 还可以减少对学习率的敏感性，使得模型更容易优化。

需要注意的是，Deep Norm 需要在训练过程中对每一层的均值和方差进行估计，可以使用滑动平均等方法来更新归一化层的参数。在测试阶段，可以使用训练阶段估计的均值和方差进行归一化。

总而言之，Deep Norm 是一种通过在深度神经网络中引入多层归一化操作来优化模型的方法，可以改善模型的训练和泛化性能。

写一下 Deep Norm 代码实现？

Deep Norm 的代码实现可以基于 PyTorch 框架来完成。以下是一个简单的 Deep Norm 的代码示例：

import torch
import torch.nn as nn

class DeepNorm(nn.Module):
   def __init__(self, input_dim, hidden_dims, output_dim):
    super(DeepNorm, self).__init__()
 
    self.layers = nn.ModuleList()
    self.norm_layers = nn.ModuleList()
  
    # 添加隐藏层和归一化层
  for i, hidden_dim in enumerate(hidden_dims):
   self.layers.append(nn.Linear(input_dim, hidden_dim))
   self.norm_layers.append(nn.LayerNorm(hidden_dim))
   input_dim = hidden_dim

  # 添加输出层
  self.output_layer = nn.Linear(input_dim, output_dim)
            
    def forward(self, x):
  for layer, norm_layer in zip(self.layers, self.norm_layers):
   x = layer(x)
   x = norm_layer(x)
   x = torch.relu(x)

  x = self.output_layer(x)
  return x
            
# 创建一个 DeepNorm 模型实例
input_dim = 100
hidden_dims = [64, 32]
output_dim = 10
model = DeepNorm(input_dim, hidden_dims, output_dim)

# 使用模型进行训练和预测
input_data = torch.randn(32, input_dim)
output = model(input_data)

在这个示例中，我们定义了一个 DeepNorm 类，其中包含了多个隐藏层和归一化层。在 forward 方法中，我们依次对输入数据进行线性变换、归一化和激活函数处理，并通过输出层得到最终的预测结果。

需要注意的是，在实际使用中，可以根据具体任务的需求来调整模型的结构和参数设置。此外，还可以使用其他归一化方法，如 Layer Norm 或 Batch Norm，根据实际情况进行选择和实现。

Deep Norm 有什么优点？

Deep Norm 有以下几个优点：

改善梯度传播：Deep Norm 在每一层都引入了归一化操作，可以有效地解决深度神经网络中的梯度消失和梯度爆炸问题。通过减小输入数据的分布差异，Deep Norm 可以使得梯度更加稳定，并加速模型的收敛速度。
提高泛化能力：Deep Norm 的归一化操作有助于提高模型的泛化能力。归一化可以减小数据的分布差异，使得模型更容易学习到数据的共性特征，从而提高模型对未见数据的预测能力。
减少对学习率的敏感性：Deep Norm 的归一化操作可以减少对学习率的敏感性。通过将输入数据归一化到相同的尺度，Deep Norm 可以使得模型的训练更加稳定，减少了对学习率的调整需求。
网络结构更简洁：Deep Norm 可以将归一化操作嵌入到网络的每一层中，而不需要额外的归一化层。这使得网络结构更加简洁，减少了模型参数的数量，降低了计算和存储成本。
提高模型的可解释性：Deep Norm 的归一化操作可以使得模型的输出具有更好的可解释性。通过将输入数据归一化到均值为0，方差为1的范围内，Deep Norm 可以使得模型输出的数值更易于理解和解释。

综上所述，Deep Norm 通过引入多层归一化操作，可以改善梯度传播、提高泛化能力、减少对学习率的敏感性，同时还能简化网络结构和提高模型的可解释性。这些优点使得 Deep Norm 成为一种有效的深度学习模型优化方法。

Layer normalization-位置篇

1 LN 在 LLMs 中的不同位置有什么区别么？如果有，能介绍一下区别么？

层归一化 Layer Norm 在大语言模型 LLMs 中的不同位置有什么区别么？如果有，能介绍一下区别么？

在大语言模型（Large Language Models）中，Layer Norm（层归一化）可以应用在不同位置，包括输入层、输出层和中间隐藏层。这些位置的归一化有一些区别：

输入层归一化：在输入层应用 Layer Norm 可以将输入的特征进行归一化，使得输入数据的分布更加稳定。这有助于减少不同样本之间的分布差异，提高模型的泛化能力。
输出层归一化：在输出层应用 Layer Norm 可以将输出结果进行归一化，使得输出结果的分布更加稳定。这有助于减小输出结果的方差，提高模型的稳定性和预测准确性。
中间隐藏层归一化：在中间隐藏层应用 Layer Norm 可以在每个隐藏层之间进行归一化操作，有助于解决深度神经网络中的梯度消失和梯度爆炸问题。通过减小输入数据的分布差异，Layer Norm 可以使得梯度更加稳定，并加速模型的收敛速度。

总的来说，Layer Norm 在大语言模型中的不同位置应用可以解决不同的问题。输入层归一化可以提高模型的泛化能力，输出层归一化可以提高模型的稳定性和预测准确性，而中间隐藏层归一化可以改善梯度传播，加速模型的收敛速度。具体应用 Layer Norm 的位置需要根据具体任务和模型的需求进行选择。

Layer normalization 对比篇

LLMs 各模型分别用了哪种 Layer normalization？

不同的大语言模型（LLMs）可能会使用不同的层归一化方法，以下是一些常见的层归一化方法在大语言模型中的应用：

BERT（Bidirectional Encoder Representations from Transformers）：BERT使用的是Transformer中的层归一化方法，即在每个Transformer编码层中应用Layer Normalization。
GPT（Generative Pre-trained Transformer）：GPT系列模型通常使用的是GPT-Norm，它是一种变种的层归一化方法。GPT-Norm在每个Transformer解码层的每个子层（自注意力、前馈神经网络）之后应用Layer Normalization。
XLNet：XLNet使用的是两种不同的层归一化方法，即Token-wise层归一化和Segment-wise层归一化。Token-wise层归一化是在每个Transformer编码层中应用Layer Normalization，而Segment-wise层归一化是在每个Transformer解码层的自注意力机制之后应用Layer Normalization。
RoBERTa：RoBERTa是对BERT模型的改进，它也使用的是Transformer中的层归一化方法，即在每个Transformer编码层中应用Layer Normalization。

需要注意的是，虽然这些大语言模型使用了不同的层归一化方法，但它们的目的都是为了提高模型的训练效果和泛化能力。具体选择哪种层归一化方法取决于模型的设计和任务的需求。

LLM 激活函数

[[#1 介绍一下 FFN 块计算公式？]]
[[#2 介绍一下 GeLU 计算公式？]]
[[#3 介绍一下 Swish 计算公式？]]
[[#4 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式？]]
[[#5 介绍一下使用 GeLU 的 GLU 块计算公式？]]
[[#6 介绍一下使用 Swish 的 GLU 块计算公式？]]
[[#各LLMs 都使用哪种激活函数？]]

1 介绍一下 FFN 块计算公式？

FFN（Feed-Forward Network）块是Transformer模型中的一个重要组成部分，用于对输入数据进行非线性变换。它由两个全连接层（即前馈神经网络）和一个激活函数组成。下面是FFN块的计算公式：

假设输入是一个向量 x，FFN块的计算过程如下：

第一层全连接层（线性变换）：其中，W1 是第一层全连接层的权重矩阵，b1 是偏置向量。
激活函数：其中，g() 是激活函数，常用的激活函数有ReLU（Rectified Linear Unit）等。
第二层全连接层（线性变换）：其中，W2 是第二层全连接层的权重矩阵，b2 是偏置向量。

在Transformer模型中，FFN块通常被应用在每个Transformer编码层的每个位置上，用于对位置编码的向量进行非线性变换。这样可以增加模型的表达能力，提高对输入数据的建模能力。

需要注意的是，上述公式中的 W1、b1、W2、b2 是FFN块的可学习参数，它们会通过训练过程进行学习和更新。

2 介绍一下 GeLU 计算公式？

GeLU（Gaussian Error Linear Unit）是一种激活函数，常用于神经网络中的非线性变换。它在Transformer模型中广泛应用于FFN（Feed-Forward Network）块。下面是GeLU的计算公式：

假设输入是一个标量 x，GeLU的计算公式如下：

其中，tanh() 是双曲正切函数，sqrt() 是平方根函数，pi 是圆周率。

GeLU函数的特点是在接近零的区域表现得类似于线性函数，而在远离零的区域则表现出非线性的特性。相比于其他常用的激活函数（如ReLU），GeLU函数在某些情况下能够提供更好的性能和更快的收敛速度。

需要注意的是，GeLU函数的计算复杂度较高，可能会增加模型的计算开销。因此，在实际应用中，也可以根据具体情况选择其他的激活函数来代替GeLU函数。

3 介绍一下 Swish 计算公式？

Swish是一种激活函数，它在深度学习中常用于神经网络的非线性变换。Swish函数的计算公式如下：

其中，sigmoid() 是Sigmoid函数，x 是输入，beta 是一个可调节的超参数。

Swish函数的特点是在接近零的区域表现得类似于线性函数，而在远离零的区域则表现出非线性的特性。相比于其他常用的激活函数（如ReLU、tanh等），Swish函数在某些情况下能够提供更好的性能和更快的收敛速度。

Swish函数的设计灵感来自于自动搜索算法，它通过引入一个可调节的超参数来增加非线性程度。当beta为0时，Swish函数退化为线性函数；当beta趋近于无穷大时，Swish函数趋近于ReLU函数。

需要注意的是，Swish函数相对于其他激活函数来说计算开销较大，因为它需要进行Sigmoid运算。因此，在实际应用中，也可以根据具体情况选择其他的激活函数来代替Swish函数。

4 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式？

使用GLU（Gated Linear Unit）线性门控单元的FFN（Feed-Forward Network）块是Transformer模型中常用的结构之一。它通过引入门控机制来增强模型的非线性能力。下面是使用GLU线性门控单元的FFN块的计算公式：

假设输入是一个向量 x，GLU线性门控单元的计算公式如下：

（1）

其中，sigmoid() 是Sigmoid函数，是一个可学习的权重矩阵。

在公式（1）中，首先将输入向量 x 通过一个全连接层（线性变换）得到一个与 x 维度相同的向量，然后将该向量通过Sigmoid函数进行激活。这个Sigmoid函数的输出称为门控向量，用来控制输入向量 x 的元素是否被激活。最后，将门控向量与输入向量 x 逐元素相乘，得到最终的输出向量。

GLU线性门控单元的特点是能够对输入向量进行选择性地激活，从而增强模型的表达能力。它在Transformer模型的编码器和解码器中广泛应用，用于对输入向量进行非线性变换和特征提取。

需要注意的是，GLU线性门控单元的计算复杂度较高，可能会增加模型的计算开销。因此，在实际应用中，也可以根据具体情况选择其他的非线性变换方式来代替GLU线性门控单元。

5 介绍一下使用 GeLU 的 GLU 块计算公式？

介绍一下使用 GeLU 作为激活函数的 GLU 块计算公式？

使用GeLU作为激活函数的GLU块的计算公式如下：

（1）

其中，GeLU() 是Gaussian Error Linear Unit的激活函数，W_1 是一个可学习的权重矩阵。

在公式（1）中，首先将输入向量 x 通过一个全连接层（线性变换）得到一个与 x 维度相同的向量，然后将该向量作为输入传递给GeLU激活函数进行非线性变换。最后，将GeLU激活函数的输出与输入向量 x 逐元素相乘，得到最终的输出向量。

GeLU激活函数的计算公式如下：

（2）

其中，tanh() 是双曲正切函数，sqrt() 是平方根函数，pi 是圆周率。

在公式（2）中，GeLU函数首先对输入向量 x 进行一个非线性变换，然后通过一系列的数学运算得到最终的输出值。

使用GeLU作为GLU块的激活函数可以增强模型的非线性能力，并在某些情况下提供更好的性能和更快的收敛速度。这种结构常用于Transformer模型中的编码器和解码器，用于对输入向量进行非线性变换和特征提取。

需要注意的是，GLU块和GeLU激活函数是两个不同的概念，它们在计算公式和应用场景上有所区别。在实际应用中，可以根据具体情况选择合适的激活函数来代替GeLU或GLU。

6 介绍一下使用 Swish 的 GLU 块计算公式？

介绍一下使用 Swish 作为激活函数的 GLU 块计算公式？

使用Swish作为激活函数的GLU块的计算公式如下：

（1）

其中，sigmoid() 是Sigmoid函数，W_1 是一个可学习的权重矩阵。

Swish激活函数的计算公式如下：

（2）

其中，sigmoid() 是Sigmoid函数，beta 是一个可学习的参数。

在公式（2）中，Swish函数首先对输入向量 x 进行一个非线性变换，然后通过Sigmoid函数进行激活，并将该激活结果与输入向量 x 逐元素相乘，得到最终的输出值。

使用Swish作为GLU块的激活函数可以增强模型的非线性能力，并在某些情况下提供更好的性能和更快的收敛速度。GLU块常用于Transformer模型中的编码器和解码器，用于对输入向量进行非线性变换和特征提取。

需要注意的是，GLU块和Swish激活函数是两个不同的概念，它们在计算公式和应用场景上有所区别。在实际应用中，可以根据具体情况选择合适的激活函数来代替Swish或GLU。

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

zenRRan

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大模型最全八股和答案（下）

来自：包包算法笔记做一个专门面向年轻NLPer的每周在线论文分享平台目录[x]大模型（LLMs）基础面[x] 1. 目前主流的开源模型体系有哪些？[x] 2. prefix LM 和 causal LM 区别是什么？[x] 3. 涌现能力是啥原因？[x] 4. 大模型LLM的架构介绍？[x]大模型（LLMs）进阶面[x] 1. llama 输入句子长度理论上可以无限长吗？[x] 1. 什么...
复制链接

扫一扫