19-7 LLM之野望 7 - 面试题选集

最新推荐文章于 2024-10-01 22:54:40 发布

拉达曼迪斯II

最新推荐文章于 2024-10-01 22:54:40 发布

阅读量1k

点赞数 33

分类专栏： AI创业 AIGC学习文章标签：网络数据库人工智能 AIGC 搜索引擎

本文链接：https://blog.csdn.net/ms44/article/details/140549012

版权

AI创业同时被 2 个专栏收录

297 篇文章 0 订阅

订阅专栏

AIGC学习

295 篇文章 0 订阅

订阅专栏

大型语言模型 (LLM) 是自然语言处理 (NLP) 技术的前沿。无论您是在准备面试还是希望加深理解，熟悉与 LLM 相关的关键概念和技术都至关重要。在这里，我们针对一些最常见的 LLM 面试问题提供全面而详细的答案，并提供增强的解释。

1. 哪种技术有助于减轻基于提示的学习中的偏见？

回答：

及时校准

解释：

提示校准涉及系统地调整提示，以最大限度地减少模型生成的响应中的偏差。该技术旨在平衡内容并避免强化训练数据中现有的偏差。通过校准提示，我们确保模型生成更公平、更平衡的输出。这与微调（使模型适应特定任务）和数据增强（增加训练数据的多样性但不直接解决偏差）不同。

2. 您是否需要为所有基于文本的 LLM 用例建立一个向量存储？

回答：

不

解释：

向量存储对于语义搜索或相似性度量至关重要的特定应用非常有用。但是，并非所有 LLM 用例都需要向量存储。例如：

摘要：涉及将较长的文本压缩为较短的版本，依赖于模型的内部表示而不需要外部向量。
情感分析：根据文本本身的上下文确定文本中表达的情感（积极、消极或中性）。
翻译：将文本从一种语言转换为另一种语言，主要取决于文本的顺序和上下文理解，而不是外部向量。

在这些情况下，模型无需单独的向量存储即可有效地生成输出。

3. 以下哪项不是专门用于使 LLM 与人类价值观和偏好保持一致的技术？

回答：

数据增强

解释：

数据增强涉及通过修改现有数据来创建新的训练示例，这有助于提高模型的泛化能力，但并非专门用于使模型与人类的价值观和偏好保持一致。强化学习人类反馈 (RLHF) 和直接偏好优化 (DPO) 等技术明确旨在通过将人类反馈和偏好纳入训练过程来使模型与人类的期望保持一致。

4. 在人类反馈强化学习（RLHF）中，“奖励黑客”是如何描述的？

回答：

利用奖励功能

解释：

当代理通过利用奖励函数中的漏洞或偏差以非预期的方式获得高额奖励时，就会发生奖励黑客攻击。这会导致代理执行最大化奖励指标但与预期目标或期望行为不一致的操作。在 RLHF 中，精心设计奖励函数和持续的人为监督对于防止奖励黑客攻击至关重要。

5. 在针对某项任务（例如创意写作）对 GenAI 模型进行微调时，哪个因素会显著影响模型适应目标任务的能力？

回答：

预训练模型架构

解释：

预训练模型的架构在其适应新任务的能力中起着关键作用。强大而多功能的架构（例如 GPT-3 等大型模型中的架构）为微调提供了坚实的基础。虽然微调数据集的大小也很重要，但架构捕捉数据中复杂模式和关系的能力会显著影响模型在目标任务上的表现。

6.Transformer 架构中的自注意力机制允许模型做什么？

回答：

衡量词语的重要性

解释：

自注意力机制使模型能够根据句子中每个单词与序列中其他单词的相关性，动态地为其分配不同的重要性。此机制允许模型捕获单词之间的依赖关系，而不管它们在文本中的距离有多远。它增强了模型理解文本中上下文和关系的能力，使其在翻译、总结和问答等任务上更有效。

7. 在 LLM 中使用 BPE 或 WordPiece 等子词算法的一个优点是什么？

回答：

限制词汇量

解释：

字节对编码 (BPE) 和 WordPiece 等子词算法将单词分解为更小的单位，例如子词或字符。这种方法可以显著减少词汇量，同时仍能捕捉大多数单词的含义。它有助于处理词汇表之外的单词和形态变化，使模型的训练和使用效率更高。通过限制词汇量，这些算法还可以降低计算复杂度和内存要求。

8. 与 Softmax 相比，Adaptive Softmax 如何加速大型语言模型？

回答：

齐普夫的法律漏洞

解释：

自适应 Softmax 利用 Zipf 定律来加快计算速度，该定律指出，少数单词使用频率很高，而大多数单词很少使用。自适应 Softmax 将常用单词分组在一起以进行精确计算，并将稀有单词聚类到更大的组中以便更高效地处理。这降低了预测序列中下一个单词的计算成本，尤其是在词汇量较大的模型中。

9. 可以调整哪些推理配置参数来增加或减少模型输出层内的随机性？

回答：

温度

解释：

温度参数控制下一个单词预测的概率分布的随机性。降低温度会使分布更加清晰，通过增加最可能单词的概率，产生更确定和可预测的输出。增加温度会使分布更加平滑，从而产生更加多样化和随机的输出。调整温度有助于在生成的文本中平衡创造力和连贯性。

10. 哪种 Transformer 模型使用掩蔽和双向上下文进行掩蔽标记预测？

回答：

自动编码器

解释：

自动编码器模型（例如 BERT（来自 Transformers 的双向编码器表示））使用掩码和双向上下文进行掩码标记预测。在训练期间，BERT 会掩码输入序列中的一定百分比的标记，并训练模型使用来自两个方向的周围上下文来预测这些掩码标记。这种双向方法使模型能够理解每个单词的完整上下文，从而增强其捕捉复杂语言模式的能力。

11. 当模型无法装入单个芯片的内存时，哪种技术可以让你跨 GPU 扩展模型训练？

回答：

FSDP（完全分片数据并行）

解释：

FSDP（完全分片数据并行）是一种通过将模型参数、梯度和优化器状态分布在多个 GPU 上来实现大型模型训练的技术。通过将模型分片（拆分）到多个 GPU，FSDP 允许训练超出单个 GPU 内存容量的模型。该技术提高了计算效率，并允许在分布式硬件上扩展大型语言模型。

12. 在训练大型语言模型时量化的目的是什么？

回答：

减少内存使用量

解释：

量化将模型权重和激活的精度从浮点表示降低到低位表示（例如，从 32 位到 8 位）。精度的降低减少了内存占用和计算要求，从而可以在资源受限的硬件上训练和部署大型语言模型。量化有助于保持模型性能，同时显著提高效率。

13. 如何使用缩放定律来设计计算最优模型？

回答：

优化模型和数据大小

解释：

缩放定律可以洞悉模型大小、数据集大小和性能之间的关系。通过分析这些关系，研究人员可以预测模型大小或数据集大小的变化将如何影响性能和计算成本。这些信息有助于设计计算优化模型，通过平衡模型复杂性、训练数据和计算资源之间的权衡，在给定约束条件下实现最佳性能。

14. 微调中的灾难性遗忘是什么？

回答：

其他任务表现较差

解释：

当针对新任务进行微调的模型在之前学习的任务上表现显著下降时，就会发生灾难性遗忘。发生这种情况的原因是神经网络的权重会更新以针对新任务进行优化，这可能会导致与先前任务相关的信息丢失。在模型需要保留跨多个任务的知识的情况下，防止灾难性遗忘至关重要。

15. 参数有效微调（PEFT）仅更新一小部分参数，这有助于防止灾难性的遗忘。

回答：

真的

解释：

参数高效微调 (PEFT) 在微调过程中仅更新模型参数的一小部分。通过将更新限制在目标参数集，PEFT 有助于在适应新任务的同时保留在预训练期间学到的一般知识。这种方法减轻了灾难性遗忘的风险，使模型能够保持其在先前学习的任务上的表现。

16. 您可以使用近端策略优化以外的算法在 RLHF 期间更新模型权重。

回答：

真的

解释：

虽然近端策略优化 (PPO) 因其稳定性和性能而成为在强化学习人类反馈 (RLHF) 期间更新模型权重的热门选择，但也可以使用其他算法。例如，Q-Learning 或信赖域策略优化 (TRPO) 等算法可以适用于 RLHF。算法的选择取决于任务的具体要求和约束。

17. 在具有群体注意机制的 Transformer 模型中，在处理句子时，该机制与标准的自注意机制有何不同？

回答：

预定义词组

解释：

群体注意力机制引入了额外的注意力层，该注意力层根据句法或语义标准将注意力集中在预定义的词组上。与考虑序列中所有单个单词之间关系的标准自注意力机制不同，群体注意力机制允许模型特别关注相关的词组，从而增强其捕捉结构化依赖关系的能力，并提高需要理解词组的任务的性能。

18.P-Tuning v2 在微调期间提供了提示嵌入的连续表示，这是离散标记的更有效替代方案。

回答：

真的

解释：

P-Tuning v2 涉及将提示表示为连续嵌入，而不是离散标记。这种连续表示允许在微调期间进行更细微、更灵活的调整，从而使模型与所需任务更好地匹配。该方法通过捕获更丰富的语义信息并提供更具表现力的提示表示来帮助提高模型的性能。

19.哪种方法通过使用梯度下降学习提示标记来微调预训练模型？

回答：

P 调谐

解释：

P-tuning 通过梯度下降学习提示标记来微调预训练模型。在这种方法中，提示标记被视为可以在训练期间优化的附加参数。通过学习这些标记，模型可以更有效地适应特定任务，并通过利用学习到的提示提供的上下文来提高其性能。

20. 使用软嵌入生成下游响应的微调方法称为：

回答：

前缀调整

解释：

前缀调整涉及将学习到的软嵌入（前缀）添加到输入标记中。这些前缀与模型一起进行微调以生成下游响应。此方法允许模型通过软嵌入整合特定于任务的信息，从而提高其为目标任务生成适当且相关响应的能力。

21. 哪种方法不依赖于训练新参数，而是基于提示的？

回答：

零样本学习

解释：

零样本学习依靠基于提示的技术来执行任务，而无需训练新参数。该模型使用提示根据其已有知识生成响应，使其能够处理尚未明确训练的任务。这种方法利用模型的泛化能力及其对语言的理解，直接从提示中解决新任务。

22. 使用 LoRA 和 QLoRA 等 PEFT 方法有助于解决培训 LLM 时的哪些挑战？

回答：

计算和存储效率

解释：

低秩自适应 (LoRA) 和量化低秩自适应 (QLoRA) 等 PEFT 方法解决了训练 LLM 时计算和存储效率的挑战。这些方法减少了训练期间需要更新的参数数量，从而降低了计算和内存要求。通过专注于最重要的参数，PEFT 方法提高了微调大型模型的效率，同时保持甚至提高了其性能。

23. 标准 LLM 模型中一个由 10 个标记和两个标记 A 和 B 组成的标记化词典，如果 A 遵循 argmax 函数输出，则标记 B 的预测概率是多少？

回答：

P(B|A)=1

解释：

如果标记 A 跟在 argmax 函数输出之后，则意味着 A 是其上下文中最可能的标记，概率为 1（100%）。因此，如果 B 是这种确定性场景中 A 之后的下一个标记，则假设模型始终预测 B 在此上下文中跟在 A 之后，则给定 A 的标记 B 的预测概率也将为 1（100%）。

24. 对大型语言模型使用分布式训练的一个好处是什么？

回答：

减少训练时间

解释：

分布式训练涉及将计算负载分散到多个 GPU 或机器上，从而使模型能够同时处理更大批量的数据。这种方法通过并行计算并实现更快的收敛，显著缩短了训练时间。分布式训练对于处理大型语言模型的大量计算需求至关重要，因此可以在合理的时间范围内对其进行训练。

25. 在大型语言模型中为什么要用知识蒸馏？

回答：

创建更小、更高效的模型

解释：

知识蒸馏将知识从大型、预先训练的模型（教师）转移到较小、更高效的模型（学生）。此过程涉及训练学生模型以复制教师模型的行为和预测。由此产生的学生模型保留了教师的大部分表现，同时在内存和计算要求方面更节省资源。知识蒸馏对于在资源有限的设备上部署 LLM 特别有用。

26. 在 LLM 培训过程中，“梯度剪裁”有助于缓解什么问题？

回答：

梯度爆炸

解释：

梯度截断是一种用于防止神经网络训练期间出现梯度爆炸问题的技术。当梯度变得过大时，就会发生梯度爆炸，导致模型权重的更新不稳定。通过将梯度限制在最大阈值，梯度截断可确保稳定且受控的权重更新，这有助于维持训练过程的稳定性并防止模型参数发散。

27. 以下哪项描述了模型随时间逐步使用数据更新的过程？

回答：

持续学习

解释：

持续学习是指模型随着时间的推移逐渐更新新数据的过程，使其能够适应新信息而不会忘记以前学到的知识。这种方法对于数据不断演变且模型需要保持相关性和准确性的应用至关重要。持续学习有助于模型融入新模式并适应不断变化的环境，同时保持其在早期数据上的性能。

28. 在 Transformer 模型中，“注意力就是你所需要的” 指的是什么？

回答：

Transformer 架构

解释：

“注意力就是你所需要的一切”是介绍 Transformer 架构的开创性论文的标题，该架构完全依赖于注意力机制来捕获输入和输出之间的依赖关系。由于该架构在处理序列中的长距离依赖关系方面非常高效和有效，因此已成为 LLM 开发的基础。Transformer 使用自注意力来衡量每个单词在其他单词上下文中的重要性，从而实现对文本的复杂理解和生成。