大模型面试题 ---大模型基础概念 01 （待续）（超全更新）_大模型从语句中概括出关键词,概括出的关键词都是特定的,可能在语句输入时,没这个-CSDN博客

本文链接：https://blog.csdn.net/Gsen2819/article/details/146536185

大模型基础概念 01

1 简单介绍一下大模型
大模型:一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型(Large Language ModelLLM)是针对语言的大模型。
1
2 大模型后面跟的如5B、7B、31B等指什么
5B、7B、31B等:这些一般指参数的个数，B是 Billion(十亿)的意思。例如，15B是150亿参数。

3 大模型具有什么优点?
1.可以利用大量的无标注数据来训练一个通用的模型，然后再用少量的有标注数据来微调模型以适应特定的任务。这种预训练和微调的方法可以减少数据标注的成本和时间，提高模型的泛化能力。
2.可以利用生成式人工智能技术来产生新颖和有价值的内容，例如图像、文本、音乐等。这种生成能力可以帮助用户在创意、娱乐、教育等领域获得更好的体验和效果。
3.可以利用涌现能力(EmergentCapabilities)来完成一些之前无法完成或者很难完成的任务，例如数学应用题、常识推理、符号操作等。这种涌现能力可以反映模型的智能水平和推理能力。

4 大模型具有什么缺点?
1.需要消耗大量的计算资源和存储资源来训练和运行，这会增加经济和环境的负担。据估计，训练一个 GPT-3 模型需要消耗约 30 万美元，并产生约 284 吨二氧化碳排放。
2.需要面对数据质量和安全性的问题，例如数据偏见、数据泄露、数据滥用等。这些问题可能会导致模型产生不准确或不道德的输出，并影响用户或社会的利益。
3.需要考虑可解释性、可靠性、可持续性等方面的挑战，例如如何理解和控制模型的行为、如何保证模型的正确性和稳定性、如何平衡模型的效益和风险等。这些挑战需要多方面的研究和合作，以确保大模型能够健康地发展。

5 大模型产生复读机的原因和解决方法是什么?
现象描述:从数据上来看，attention时候会跳过这部分信息依然从之前的context后进行预测然后得到predict，但是predict对于attention的贡献很小，导致模型预测predict的下一个内容还是将注意力放在前面的content中，从而导致了循环往复的预测。
原因:
1.数据偏差:大型语言模型通常是通过预训练阶段使用大量的无标签数据进行训练的。如果训练数据中含有大量的重复文本或者某些特定的句子或短语出现频率较高，模型在生成文本时就有可能倾向于复制这些常规的模式。
2.训练目标的限制:大型语言模型的训练通常是基于自监督的学习方法，通过预测下一个词或掩盖词、短语来学习语言模型。这样的训练目标可A口)致复读机问题的出现。3.缺乏多样性的训练数据:虽然大型语言模型能够处理大规模的数据，但如果训练数据中缺乏多样性的语言表达和语境，模型可能无法学习到足够的多样性和创造性，导致复读机问题的出现。4.模型结构和参数设置:大型语言模型的结构和参数也可能对复读机问题产生影响。比如，模型的注意力机制和生成策略可能导致模型更倾向于复制输入的文本。
解决方法:
目前针对LLM重复生成的问题，主要有两种策略，一种是基于训练思想，一种是基于解码策
略。
1.训练策略
整体思想就是通过构造伪数据，即短语重复、句子重复等伪数据，如短语或句子重复N遍，然后设计重复惩罚项来抑制大模型生成重复句子。引入相关的loss,如DITTO方法。重复惩罚项通过设计损失函数来达成，其中入是惩罚因子，对不同的任务可能取不不司的值，公式现
Co(P(xnx<n))=-0g(1-|P(xn:x<n)-λ·P(xn-1x<n-1)1)

基于解码的策略
基于解码策略包含诸多方法，如beam search,random search(topK, topP),温度,ngram等(1)集束搜索(beam search)针对贪心策略的改进，思想就是稍微放宽一些考察范围。即，在每一个时间步，不再只保留当前分数最高的1个输出(贪心策略)，而是保留num beams个，当num beams=1时，集束搜索就退化成了贪心搜
索。
(2)random search(topK, topP)topK即从概率最高的K个token中进行筛选，即允许其他高分tokens有机会被选中topP将可能性之和不超过特定值的top tokens列入候选名单，topP通常设置较高的值，目的是限制可能被采样的低概率token的长尾
(3)温度T较低的温度意味着较少的随机性，温度为0将始终产生相同的输出，较高的温度意味着更多的随机性，可以帮助模型给出更有创意的输
世。
参考
https://zhuanlan.zhihu.com/p/6722612422. https://zhuanlan.zhihu.com/p/666918508
Learning to Break the Loop: Analyzing
and Mitigating Repetitions for Neural Text
Generation

6 大模型 LLM 的训练目标是什么?
大语言模型(LLM)的训练目标是通过大规模文本数据的学习，使模型能够理解和生成自然语言文本，从而在各种自然语言处理任务中表现出色。具体训练目标可以分为以下几个方面:
·1.语言模型目标
预测下一个词: 通过最大似然估计
(MLE)训练模型，使其能够根据上下文预测序列中下一个词的概率。
优化目标:最大化模型生成训练数据中观
察到的文本序列的概率。
2.去噪自编码器目标
恢复被扰乱的文本:通过对文本进行随机。扰动或遮掩，训练模型恢复原始文本。这种方
法适用于一些特殊任务，如完形填空。
·3.预训练目标
学习语言的通用特征:通过处理海量文本数据，模型学习语言的统计规律、语法结构和语义信息，为后续的微调任务提供强大的语言理解和生成能力。
。数据来源:预训练通常使用来自维基百科、互联网新闻、书籍等的海量文本数据。·4.有监督微调目标
适应特定任务:在预训练模型的基础上
使用少量标注数据对模型进行进一步训练，使其能够完成特定任务(如问答、翻译、写作
等)
·5.奖励建模和强化学习目标
优化文本生成质量:通过奖励模型评估生成文本的质量，并利用强化学习进一步优化模型的生成能力，使其更符合人类期望。
总体而言，LLM的训练目标是通过多阶段的训练过程，使模型具备强大的语言理解和生成能力，能够高效地应用于各种自然语言处理任务,

7 说下LLM的关键参数是哪些?
LLM 是复杂的 AI 模型，其性能受到几个关键参数的影响。理解这些参数对于有效地开发、训练和利用 LLM 至关重要,
以下是其中一些最重要的参数的分解!
·LLM 架构
这指的是用于 LLM 的神经网络的底层设计和结构。它决定了模型在学习和处理信息方面的效率，以及其在处理不同任务时的稳定性和通用性。常见的 LLM 架构包括表现卓越的
Transformer，它在处理长文本序列方面表现出色。
模型大小(参数)
这指的是 LLM 神经网络中的数值总数(权重和偏差)。简单来说，它反映了模型的复杂性。一般来说，参数更多的大型模型在处理复杂任务方面具有更强的能力，能够产生更细致的输出。然而，它们也需要更多的计算资源来进行训练和推理
·训练数据的质量和数量
LLM 所使用的训练数据对其输出的质量和相关性有显著影响。高质量、多样化且相关的数据可以产生更准确、更可靠的模型。训练数据的量也很重要，通常数据集越大，模型性能越好，但同时需要更多的训练时间和资源。
超参数
这些是控制 LLM 学习过程的设置。它们不像模型参数那样直接编码知识，而是指导模型如何从训练数据中学习。超参数的例子包括学习率、批量大小和优化器类型。调整这些设置可以微调学习过程，并针对特定任务优化模型的性能，

8 LLM是如何工作的?
LLM 使用词嵌入来处理文本，这是一种多维的词表示方法，能够捕捉词的含义及其与其他词的关系。这使得 Transformer 模型(一种深度学习技术)能够通过编码器理解句子中的上下文和关系。凭借这些知识，解码器可以根据提示或情境生成类似人类的文本。

9 LLM通常是通过什么方式训练的?
LLM 训练的核心是一个基于 Transformer 的神经网络，拥有数十亿参数。这些参数连接各层的节点，使模型能够学习复杂的关联关系。LLM在大规模的高质量文本和代码数据集上进行训练。这些数据为模型提供了学习语言模式的原材料。在训练过程中，模型会根据前面的词预测序列中的下一个词。然后，它会调整内部参数以改进预测，本质上是通过大量的示例进行自我学习。训练完成后，LLM 可以针对特定任务进行微调。

10 简单介绍Transformer网络?
大多数现代 LLM 的核心是 Transformer 架构。这种神经网络摒弃了传统的循环神经网络
(RNN)，擅长理解序列中的长距离依赖关系，使其特别适合语言处理任务。Transformer由两个子组件组成:
编码器:这一部分处理输入文本，将其分解为一系列编码表示，捕捉词之间的关系。
解码器:在这里，模型利用编码器提供的编。
码信息逐词生成输出文本。
自注意力机制
Transformer 中的这一巧妙机制使模型能够专注于输入序列中与给定词或短语最相关的部分。它根据对当前预测的重要性，不同程度地关注输入文本的不同部分。这种能力对于 LLM 理解语言和上下文的细微差别至关重要。
输入嵌入和输出解码
输入嵌入:在将文本数据输入 LLM 之前，词嵌入将其转换为数值表示。这一过程将词转换头向量，捕捉它们的语义相似性和关系。
输出解码:LLM 处理完编码输入后，通过解码将内部表示转换回人类可读的文本，
模型大小和参数数量
LLM 中的参数数量(权重和偏差)对其能力有重大影响。大规模 LLM 通常拥有数十亿甚至数干亿参数，使其能够学习语言数据中的复杂模式和关系。然而，这也需要大量的计算资源来训练和运行模型。

可以加群讨论备注来意
可以群讨论

11 什么是幻觉，以及如何通过提示工程加以控制?
幻觉现象是指模型生成错误或荒谬的输出。例如，想象一名学生自信地讲述一个虚构的历史事件，尽管其表述可能逻辑连贯，但内容却与事实不符。类似地，大语言模型(LLM)也可能出现这种现象，通过创造性的小说内容填补知识空白，从而生成与事实不符的输出。
提示工程是一种有效控制幻觉现象的方法。它通过编写指导性指令来引导 LLM 生成更可靠的回答。以下是具体实施方法:
1.设定场景:如同撰写学术论文时需要明确背景和研究问题一样，一个好的提示应当为 LLM设定清晰的场景，使其能够准确理解预期的回答类型。这有助于模型在生成回答时聚焦于相关主题，避免偏离目标。
2. 明确目标:明确告知 LLM 其输出的目标类型，例如是事实总结还是创意故事。这种明确的目标设定能够显著降低模型偏离主题的可能性确保生成的内容符合用户需求。
3.提供结构化选项:在某些情况下，为 LLM 提供多项选择或特定的输出格式可以有效约束其回答，使其保持在正确的轨道上。这种结构化的提示方式有助于模型在生成过程中遵循既定的逻辑和框架，从而提高输出的准确性和可靠性。
通过以上方法，提示工程能够有效引导 LLM 的输出，减少幻觉现象的发生，从而提高模型在实际应用中的可靠性和实用性。

12 涌现能力是啥原因?
1.任务的评价指标不够平滑;2.复杂任务 vs 子任务，这个其实好理解，比如我们假设某个任务T有5 个子任务 Sub-T 构成，每个 sub-T 随着模型增长，指标从 40%提升到 60%，但是最终任务的指标只从 1.1%提升到了 7%，也就是说宏观上看到了涌现现象，但是子任务效果其实是平滑增长的。

13 假设我有一个LLM模型如何根据我的需求使用数据对其进行定制?
定制大型语言模型(LLM)以满足特定需求的四种主要架构模式包括:提示工程(PromptEngineering)检索增强生成(Retrieval-Augmented Generation,RAG)、微调(Fine-tuning)和预训练(Pre-training)这些方法并非相互竞争，而是相互补充，通常可以结合使用以获得最佳效果。
·如果你数据有限且计算资源不足，提示工程是一个很好的起点。
·如果你需要更全面的回答且有一些相关数据可以考虑使用 RAG。
·如果准确性至关重要且你拥有大量数据集，微调是一个强大的选择。
，如果你的应用场景高度专业化，且拥有大量特定领域的数据和显著的计算资源，预训练是最理想的选择

14 如何估算微调 LLM 的基础设施需
求?
准确估算微调 LLM 所需的基础设施需要仔细考虑多个因素。主要驱动因素包括你正在处理的模型的大小和复杂性，以及你希望完成训练的速度。
拥有数十亿参数的大型模型自然会需要更多的计算能力和内存。这意味着你需要强大的图形处理单元(GPU)或张量处理单元(TPU)，可能还需要多单元配置。另一方面，如果实现更快的训练时间至关重要，你需要进一步扩展资源。这可能涉及使用多个 GPU 或 TPU 并行工作，或者利用提供按需扩展能力的云解决方案。重要的是要记住，所有这些选择都伴随着预算。可以考虑探索量化技术，该技术可以减少模型大小，从而降低计算需求。这可能使你能够在计算能力较弱(且更经济实惠)的硬件上训练模型，使微调过程再目成木效於

15 使用少样本提示时需要注意哪些方面?
少样本提示是一种强大的方法，可以引导大型语言模型完成特定任务。以下是一些有效使用少样本提示的建议:
虽然称为“少样本”，但要注重示例的质量。选择清晰、简洁的示例，准确反映期望的输出格式和风格。
·不要只提供孤立的示例。在提示中包含上下文，将示例与期望的任务联系起来。这有助于模型理解输入和输出之间的关系，
·如果你的任务涉及多个类别，请确保你的示例按比例代表每个类别。分布不均可能导致模型偏向某些输出。
·在提示中明确定义你希望模型执行的任务。这有助于模型专注于特定目标，避免无关信息。

16 嵌入短内容和长内容有什么区别?
嵌入短内容和长内容有一些关键区别。对于短内容，捕捉完整含义可能具有挑战性。由于单词较少，嵌入模型难以把握文本的细微差别。这可能导致类似短文本仅因为其简短而被认为更相似而不是基于实际的语义相似性
另一方面，长内容为嵌入模型提供了更丰富的信息池。它可以分析整个文本中单词之间的关系考虑到句子结构和主题发展等因素。这可以创建更准确、更全面的嵌入，反映内容的完整含义然而，过长的内容也可能带来挑战。某些模型可能难以处理大量信息，可能会丢失一些细节。

17 在 LLM 应用中如何使用嵌入模型?
嵌入模型在 LLM 应用中就像一个搜索引擎，帮助 LLM 从大量数据中找到最相关的信息片段。这有助于 LLM 提供更准确、更信息丰富且更有帮助的回答。以下是一个很好的例子!
假设 LLM 是一位强大的语言专家，但它需要种方法来理解用户话语背后的含义。嵌入模型介入并将文本输入(查询、文档)转换为称为嵌入的数值表示。这些嵌入捕捉单词和概念之间的语义关系。
LLM 应用通常利用检索增强生成(RAG)。在RAG 中，嵌入模型将用户查询和知识库中的相关信息都转换为嵌入。然后，它找到知识库中与用户查询最相似的嵌入信息。这些检索到的信息连同用户的查询一起成为 LLM 的上下文。最后，LLM 利用这个上下文生成既相关又信息丰富的回答，

18 如何在 LLM 中使用停止序列?
停止序列是一个特定的文本字符串，你指示LLM 在遇到它时停止生成文本。这使你能够为模型的输出定义一个明确的终点。它们通过指示LLM 在遇到特定字符序列时停止文本生成来工作。这有助于你为模型的响应定义清晰的停止点，从而获得更专注、更受控的结果。

19 如何写出高质量的提示?
为 LLM 提供具体的指令并提供上下文，例如背景或人物。使用强有力的动词来引导反应，并保持简洁以避免让模型感到不知所措。

20 如何在不同层面控制 LLM 的幻觉?
控制 LLM 幻觉有多种方法。在基础层面，我们可以专注于改进训练数据。这包括使用高质量、来源可靠的信息，并采用少样本学习等技术，通过相关示例引导模型生成准确的回答。
其次，我们可以在生成过程中解决幻觉问题。提示工程在这里发挥关键作用。例如，链式思维提示(chain-of-thought prompting)鼓励 LLM展示其推理步骤，从而揭示不一致或事实错误。此外，调整模型参数(如温度和 top-p)可以影响输出的随机性和多样性，降低生成荒谬回答的可能性。
最后，生成后的处理方法可以识别并缓解幻觉致性检查可以分析生成文本中的矛盾或不合逻辑的内容。此外，我们还可以利用自一致性或投票技术，让 LLM 生成多个回答，并将出现频率最高的答案(在统计上合理的选项中)视为最可靠的。

21 如何提高 LLM 的准确性和可靠性并使其回答可验证?
以下是提高 LLM 准确性和可靠性并使其回答可验证的方法:
·LLM 辅助检索:这种方法利用 LLM 生成回答并查找支持性文档。检索到的文档可用于验证生成回答的准确性，从而增强对 LLM 输出的信务
·提示工程:提问方式会显著影响 LLM 的回答。因此，提供清晰、具体的提示可以帮助引导LLM 生成更准确、更相关的结果。
与事实核查 API集成:LLM 可以与第三方事实核查 API集成，从而将生成的回答与现实世界数据进行验证，提高可靠性。
验证-更新循环:这种方法通过迭代过程让LLM 根据验证尝试优化检索结果。循环会持续进行，直到检索到的文档能够令人信服地支持回答，从而增强正确性和可验证性。
·模型参数和控制机制:参数如“生成的标记数和“停止词“可以帮助你影响 LLM 的生成过程。这可以让模型决定何时停止生成文本，从而减少错误的引入。

22 如何缓解 LLM 中的灾难性遗忘?
灾难性遗忘是指 LLM 在学习新信息时完全忘记或显著削弱对之前学习任务的掌握。这对于旨在多功能且适应性强的 LLM 来说是一个问题。
有几种技术可以解决这一挑战。一种方法是基于复习的方法，即在训练过程中让 LLM 同时复习旧数据和新数据的子集。这有助于 LLM 保留对过去任务的知识。另一种技术是弹性权重巩固(EWC)，它为 LLM 网络中的不同权重分配重要性分数。更近期的进展包括为新任务引入独立模块。这允许 LLM 扩展其知识库而不完全重写现有连接。例如，渐进神经网络(ProgNet)和优化固定扩展层(OFELS)就属于这一类别。

23 OpenAl 函数和 LangChain 函数有什么区别?
在将函数与大型语言模型集成时，OpenAl函数和 LangChain 函数提供了不同的方法。OpenAl函数提供更手动的体验。你可以定义自定义函数，并对 AI调用哪些函数以及如何使用它们拥有更大的控制权。然而，这需要更多的开发工作，因为你需要编写代码来解析 AI的响应并管理参数。
另一方面，LangChain 函数优先考虑易用性使用 LangChain 工具包可以帮助你避免从头开始编写函数定义和实现。然而，这也有局限性你将受限于所选代理类型或工具包提供的函数。此外，告知模型可用函数依赖于在 LangChain中选择合适的代理类型。
查看更多关于 OpenAl 函数与 LangChain 代理之间比较的细节，可以参考这个 Reddit 讨论,

24 如何在控制成本的同时获得 LLM 系统的最佳性能和功能?
以下是五个优化 LLM 系统成本的绝佳建议，同时保持良好的性能和功能:
·LLM 按标记(单词、标点等)收费。因此，你需要专注于清晰、具体的提示，直接切入主题避免不必要的信息。
·如果你使用 LLM API，考虑将类似的请求批量处理。这可以提高处理速度并减少所需的调用次数，从而降低成本。
·使用像 LLM Lingua 这样的技术可以从输入和输出中去除不必要的单词，减少处理的标记数量，节省费用。
·对于聊天机器人或交互式系统，限制存储在内存中的对话历史记录。这减少了 LLM 为每次回答需要考虑的标记数量。
·不同的 LLM 在成本和能力上各不相同。选择专门为你的任务设计的 LLM，以在预算内获得最佳性能。

26 如何处理 LLM 中的过拟合?
过拟合可能导致 LLM 产生荒谬的输出，或者过于模仿训练数据。
我们可以借鉴其他机器学习模型中用于处理过拟合的技术。一种方法是数据增强，即通过创建现有示例的变体人工扩展训练数据。这迫使 LLM学习底层模式，而不是记忆特定的短语。此外还可以采用正则化技术，例如 Dropout。Dropout 在训练过程中随机停用神经元，防止模型过度依赖任何单一特征，从而促进更好的泛化能力。这些方法可以帮助我们训练出在新数据上表现良好的 LLM，避免陷入训练集的细节，

27 如何处理语言模型中的长期依赖关系?
语言模型中的长期依赖关系指的是捕捉序列中相隔较远的单词之间的关系。标准的神经网络通常在这方面表现不佳，因为信息会随着时间的推移而衰减。以下是一些解决长期依赖关系的标准技术:
·循环神经网络(RNN):这些网络内部有循环，允许它们存储来自先前输入的信息，并用它来影响当前输入的处理。这种形式的“记忆“可以弥合相隔较远的单词之间的差距。
长短期记忆网络(LSTM):这是一种专门设计用于解决梯度消失问题的 RNN 架构。LSTM内部有控制信息流动的门，允许它们保留相关信息更长时间，并处理更远距离的依赖关系。更多相关内容可以参考 Tim Klawa 在他的帖子中提到的内容。
。Transformer-XL:这是Transformer架构的一种改进，另一种用于语言任务的强大神经网络。Transformer-XL 通过在编码新输入片段时保留和利用先前处理步骤中的隐藏状态来解决长期依赖问题。这使它能够在更长的序列中保持上下文。
。注意力机制:这些技术允许模型专注于当前预测最相关的输入序列的特定部分。即使这些部分相隔较远，关注这些信息部分也有助于模型学习长期依赖关系。

28 如果CoT提示失败了，你怎么改进LLM 的推理能力?
如果你的初始链式思维(CoT)提示失败了，考虑对其进行细化，以解决模糊性或缺失的步骤。你还可以探索其他提示技巧，例如提供假设、背景知识或鼓励多角度分析。人类对 LLM 推理过程的反馈也可能非常有价值。最后，确保你的训练数据包含多样化的目标推理示例，以提高LLM 的能力。

29 如何处理大型语言模型中的偏见?
大型语言模型(LLM)容易出现偏见，因为它们从训练数据中学习。这些数据可能包含固有的偏见和错误信息，导致 LLM 在输出中反映这些偏见。
以下是三种处理 LLM 偏见的绝佳方法,
数据质量:我们可以通过确保高质量的训练数据来缓解偏见。这涉及使用多样化且具有代表性的数据集，反映现实世界的情况。数据增强和过滤技术可以帮助实现这一目标。。训练过程中的偏见缓解:正在开发新的训练方法，以在训练过程中解决偏见问题。这些方法包括引入逻辑规则，并在特定任务上对模型进行无偏见数据集的微调。
识别和标记偏见:我们可以开发工具来识别和标记 LLM 输出中的潜在偏见。这可以让用户意识到潜在的偏见并做出明智的决策。

30 解释LLM文本生成中的温度概念
温度是一个参数，通过调整标记的概率分布来控制语言模型输出的随机性。
低温度(<1):
使输出更具确定性和专注性。
模型优先选择高概率标记，减少多样性。
高温度(>1):
通过使标记概率更均匀来增加变异性
适用于创造性和多样化的输出。

31 什么是掩码语言建模(MLM)?
MLM涉及随机掩码输入文本中的一些标记，并
让模型根据周围上下文进行预测。
·由BERT(基于Transformer的双向编码器表示)推广。·目标: 通过利用双向上下文学习语言中的双向依赖关系。
示例:
。输入:“The [MASK] is blue.
预测:“The sky is blue.

32 什么是序列到序列模型?
·序列到序列模型将输入序列转换为相应的输出序列，常用于
机器翻译:英语一法语。
。文本摘要:长文本 → 摘要。
。问答:上下文 → 答案。
组件:
编码器:处理输入并生成表示，
解码器:将表示转换为所需的输出。示例: 基于Transformer的模型如T5和基于RNN的模型如带注意力机制的Seq2Seq。

33 自回归模型和掩码模型有何不同
自回归模型(例如GPT):。逐个生成文本，使用之前生成的标记作为上下文。
预测序列中的下一个词。示例:
适合文本生成。优势:
·掩码模型(例如BERT):
使用双向上下文预测序列中的掩码标记。
优势:适合理解任务如分类或问答

34 嵌入在LLM中扮演什么角色?
嵌入是标记的向量表示，编码:
。语义信息(意义)
语法信息(结构)
·它们将离散标记转换为连续数值，以便模型输
类型:
。单词嵌入:表示整个单词。
。子词嵌入:处理末知/罕见单词。示例:Word2Vec、GloVe和Transformer中的学习嵌入。

35 什么是下一句预测(NSP)?
·NSP是一种预训练目标，用于教模型理解句子之间的关系。
·模型预测给定句子B是否自然地跟在句子A之后。
·示例(BERT):
输入:
句子A:“ love books.
句子B:"They expand my knowledge.
模型输出:True.

36 如何评估 LLM 的性能?
评估 LLM 的性能需要综合考虑成本、用户体验和负责任的 AI 实践。传统的基准数据集对于LLM 来说有限，因此需要通过真实世界用户流量进行评估。这有助于衡量类似人类的能力，并确保安全且有价值的用户体验。
关键指标包括:
·GPU 利用率(成本估算)
·负责任的 AI(检测和缓解风险)
性能(延迟)
实用性(用户价值)
A/B 测试对于衡量 LLM 功能的影响也至关重要。这包括启动实验(暗模式、受控推出)和发布后实验(影子实验、常规 A/B 测试)，以优化这些功能。
评估 LLM 的性能需要综合考虑成本、用户体验和负责任的 AI 实践。

37 提示工程如何影响LLM输出?
提示工程是设计清晰、具体和目标导向的输入提示的过程，以引导大型语言模型(LLM)获得期望的结果。它在最大化LLM性能方面至关重要，特别是在以下场景中
零样本学习:模型在没有先例的情况下执行任务，依赖于提示的清晰度来推断意图。少样本学习:在提示中提供少量示例以指导模型。
有效的提示工程:
提供上下文以减少歧义。
使用结构化指令强调任务的要求。
。利用如思维链(COT)提示等策略来引出逻辑推理。
示例: 将“Summarize this text"重新表述为"Provide a 3-sentence summary focusing onthe main theme“可以提高输出的精确性。

38 提示工程如何影响LLM输出?
提示工程是设计清晰、具体和目标导向的输入提示的过程，以引导大型语言模型(LLM)获得期望的结果。它在最大化LLM性能方面至关重要，特别是在以下场景中
零样本学习:模型在没有先例的情况下执行任务，依赖于提示的清晰度来推断意图。少样本学习:在提示中提供少量示例以指导模型。
有效的提示工程:
提供上下文以减少歧义。
使用结构化指令强调任务的要求。
。利用如思维链(COT)提示等策略来引出逻辑推理。
示例: 将“Summarize this text"重新表述为"Provide a 3-sentence summary focusing onthe main theme“可以提高输出的精确性。

39 如何减轻LLM中的灾难性遗忘?
灾难性遗忘发生在LLM在训练新任务时丢失先前学到的知识。缓解策略包括在再训练期间结合新旧日数据以复习方法:加强先前的知识。
弹性权重固化(EWC):为模型参数分配。重要性权重，惩罚对先前任务至关重要的参数的变化。
模块化方法:为新任务引入单独的模块或适配器，保留核心模型的现有知识。·这些技术确保模型在适应新要求的同时保留过去的知识。

40 什么是模型蒸馏，它如何应用于LLM?
模型蒸馏涉及将大型、计算密集的“教师“模型的知识转移到较小的“学生“模型。学生通过模仿教师的:
软预测(类别上的概率分布)
中间表示(如果可用)·在LLM中，蒸馏减少了部署的计算成本，而不会显著损失准确性。例如，GPT-3的能力可以在蒸馏版本中近似，以便更快地进行推理。

41 LLM如何处理词汇表外(OOV)单词?
·LLM通过子词分词技术处理OOV单词，例如:字节对编码(BPE):将单词分解为较小的单元，如前缀、后缀或字符对。。WordPiece:类似于BPE，但合并标准略有不同。
单词语言模型:选择最可能的子词序列。。·这确保即使是未见过的单词也可以表示为已知子词的组合。

42 LLM如何处理词汇表外(OOV)单词?
·LLM通过子词分词技术处理OOV单词，例如:字节对编码(BPE):将单词分解为较小的单元，如前缀、后缀或字符对。。WordPiece:类似于BPE，但合并标准略有不同。
单词语言模型:选择最可能的子词序列。。·这确保即使是未见过的单词也可以表示为已知子词的组合。

43 什么是过拟合，如何防止它?
·过拟合发生在模型记忆训练数据模式而不是泛化到未见数据时。预防措施包括正则化: 对大权重进行惩罚(例如L2正则化)
dropout:在训练期间随机禁用神经元以。
促进鲁棒性。
数据增强:扩大训练数据的多样性。提前停止:当验证性能停滞时停止训练。更简单的模型:降低复杂性以防止过拟台

44 什么是生成模型和判别模型?
生成模型:这些模型学习数据的底层概率分布以生成新的、相似的数据样本。它们对输入特征xxx及其对应的标签yyy进行建模，能够回答“给定xxx，yyy的概率是多少?“和“对于yyy，可能的xxx是什么?“等问题。
应用:文本生成(GPT)、图像合成
(GANS)、语音生成。
示例: GPT通过预测下一个词来生成类似人类的文本。
判别模型:这些模型专注于学习不同类别之间的决策边界。它们直接对P(yIx)P(y|x)P(y|x)进行建模，即给定输入xxx时标签yyy的概率，而不学习数据分布。
。应用:分类任务(例如垃圾邮件检测、情
感分析)
。示例:BERT将文本分类为正面或负面情感
等类别。

45 GPT-4与GPT-3有何不同?
·多模态输入:GPT-4可以处理文本和图像使其在视觉问答等任务中具有多功能性。更大的上下文窗口: GPT-4可以处理比GPT-3更长的输入序列，提高了长篇讨论或文档的连贯性。
准确性:由于改进的训练和增加的参数，语言理解、逻辑推理和事实正确性得到了增强，多语言能力: 改善了对更广泛语言的处理使GPT-4在全球范围内更具可访问性。

46 各肀蝤喧彐壟逊硫痱馎巽旲醇ɒ丛脸驥鋱腮⑤魘穹底源的Base,Chat,Instruction之间有什么区别?
Base、Chat和Instruction是三种不同的大模型版本，分别通过不同的训练或微调方式得到的。目前大模型训练分为三阶段:预训练(pre-train)、监督微调(SFT)、人类反馈强化学习(RLHF)。通过三阶段训练，分别得到Base型和Chat模型。
1.Base模型(基座模型)Base模型是通过第-阶段预训练(pre-train)得到的。它在大量未标注的数据上进行预训练，学习语言的广泛特征。Base模型具有庞大的参数规模，能够在文本生成、语义理解和语言翻译等多样化任务中表现出色。该模型的通用性很好，无特定的任务偏好，适配一些任务需要微调。
2.Chat模型(聊天模型)Chat模型是在Base模型的基础上，通过第二阶段的监督微调(SFT)和第三阶段的强化学习(RLHF)得到的。Chat模型经过通用任务的微调和强化，使其具备对话能力、推理能力、用户偏好对齐或者其他自然语言理解(NLU)的能力。该模型结合了人类偏好，能进行流畅对话，有一定的情感和礼貌控制，在聊天和交互场景下应用广泛。
3.|nstruction模型(指令模型)Instruction模型经过指令微调的模型，能够理解和执行复杂的自然语言指令。很多垂领模型，都是在预训练型的基础上，通过针对性的指令微调，可以更好地适应最终任务和对齐用户偏好。在进行指令微调的时候，会将指令以及对应的回答拼接成文本，然后用于微调模型。该模型主要针对特定场景下的指令响应，能完成特定的任务，且有清晰的输出。

47 目前主流的开源模型体系有哪些?
目前主流的开源模型体系分为三种
第一种:prefix Decoder 系
·介绍:输入双向注意力，输出单向注意力·代表模型:ChatGLM、ChatGLM2、U-PaLM
第二种:causal Decoder 系
·介绍:从左到右的单向注意力·代表模型:
LLaMA-7B、LLaMa 衍生物
第三种:Encoder-Decoder
·介绍:输入双向注意力，输出单向注意力·代表模型:T5、Flan-T5、BART
在这里插入图片描述

48 prefix Decoder、causal Decode和 Encoder-Decoder 的区别是什么?
prefix Decoder、causalDecoder和Encoder-Decoder的区别在于 attentionmask 不同:
Encoder-Decoder
介绍:输入双向注意力，输出单向注意力代表模型:T5、Flan-T5、BART
特点:
。在输入上采用双向注意力，对问题的编码理解更充分
。适用任务:在偏理解的 NLP 任务上效果好缺点:在长文本生成任务上效果差，训练
效率低
causal Decoder
特点:.
。自回归语言模型，预训练和下游应用是完全致的，严格遵守只有后面的 token 才能看到前面的 token 的规则
适用任务:文本生成任务效果好
优点:训练效率高，zero-shot 能力更强具有涌现能力
prefix Decoder
特点:prefix 部分的 token 互相能看到，是。causal Decoder和Encoder-Decoder 的折中缺点:训练效率低
在这里插入图片描述

49 LLama1,LLama2和LLama3的区别有哪些?
参数规模第一代和第二代的Llama模型都包含了四个不同参数规模的版本，其中最小的模型参数规模在70亿，往上分别有130亿、340亿和700亿(第代最高的是650亿)。而此次发布的第三代Llama3模型，目前公开的只有80亿参数规模版本和700亿版本。而根据透露，最高的参数版本是4000亿参数规模的模型。只是目前还在训练中。
模型结构LLama3全部都用了GQA来实现加速训练和推
理。
·上下文长度
Llama三代模型的上下文长度分别是2K、4K和8K，虽然Llama3训练是8K上下文，但是按照目前业界的技术，应该是可以继续拓展到更长上下文的。而官方也说过，未来Llama3会有更长上X
·词汇表在Llama1和Llama2中，MetaAl的词汇表都是32K大小，这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K，也就是说它的tokenizer有了较大的变化。更大的词汇表意味着更强的语义表达能力，也是支持更多语言的一个基础。
·训练过程训练过程的升级我们主要看训练时间和训练数据的变化。此前，业界一直说大模型的训练成本在下降。但是从Llama3的变化看，下降的是单位训练成本，但是大模型总的训练成本其实在大幅增长。
·训练数据
Llama3模型的训练数据大幅增长，Lama3的训练数据达到了15万亿，比第一代和第二代Llama模型加在一起还多好几倍。如下图所示，第一代的小一点的模型训练数据是1万亿tokens，而较规模24 tokens。到了第二代Llama2系列，训练数据都增长到了2万亿tokens。
，训练时长
在Llama1论文发布的时候，训练Llama1模型可能花费了几百万上千万美金。原因是650亿参数的Llama1模型训练了102万个GPU小时，按照公有云A100租赁的价格打折计算，这个成本也是几百万美金。到了Lama3模型这里，训练成本的增长更为恐怖，Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如不
·评价指标
三代不同Llama系列在综合理解评测基准MMLU、数学推理GSM8K以及代码能力HumanEval的评测结果显示，Llama3相比Llama2的提升应该是比Llama2相比Llama1的提升要高的多的。

50 知识蒸馏是什么，它在 LLM 中如何使用?
知识蒸馏涉及将大型“教师“模型的知识转移到小型“学生“模型。较小的模型模仿教师的行为，使其能够在资源受限的环境中以较少的资源表现良好，从而提高部署效率。

51 链式思考(CoT)提示如何提高LLM 的推理能力?
CoT 提示帮助 LLM 在得出最终答案之前生成中间推理步骤，使其在需要逻辑推理的任务中更有效。通过模拟类似人类的思维过程，CoT有助于解决复杂问题。

52 缩放定律分析如何帮助优化 LLM 的设计?
缩放定律分析提供了模型性能如何随参数、数据集大小和计算资源而变化的见解。通过研究这些关系，开发人员可以
优化模型大小:确定增加参数数量的收益递减点，帮助在模型复杂性和性能之间取得平衡。提高计算效率:缩放定律指导计算资源的分配确保模型在与其大小相对应的最优数据量上进行训练。
最大化性能:了解缩放定律使开发人员能够微调架构、训练数据和计算分配，以在资源限制内实现最佳性能。
缩放定律对于开发既高性能又计算高效的 LLM至关重要。

53 模型剪枝如何在不牺牲性能的情况下提高 LLM 的效率?
模型剪枝涉及从大型语言模型中移除不必要的或冗余的参数，从而减少模型大小并使其更具计算效率。剪枝有几种类型，例如:
权重剪枝:移除对模型整体性能贡献较小的不重要的权重。
神经元剪枝:移除对当前任务不太重要的整个神经元或层。
通过减少活动参数的数量，剪枝降低了内存和计算需求，加快了推理时间，并减少了部署时的资源负担。这是通过仔细分析哪些参数可以剪枝来实现的，同时保持准确性。

54 零样本学习是什么，它如何应用于LLM?
零样本学习使 LLM 能够通过利用其对语言和一般概念的广泛知识来执行它们未明确训练过的任务。它不依赖于特定任务的微调，而是允许模型根据提示中的上下文和指令来理解和生成相关的响应。例如:
文本分类:经过一般语言数据训练的模型可以在没有针对该任务进行特定训练的情况下，通过提供适当的提示将文本分类到不同类别中。
翻译或总结:LLM 可以在没有针对这些任务进行微调的情况下进行翻译或总结，仅使用输入中提供的指令。
零样本学习反映了 LLM 在任务之间泛化的能力，使其能够适应广泛的应用场景。

55 LLM 中特定任务的微调与零样本学习有何不同?
特定任务的微调通过在特定于该任务的数据集上进一步训练 LLM 来使其适应特定任务。这使型能够:
提高准确性:微调针对狭窄的任务(如情感分析或命名实体识别)优化模型的性能，与零样本学习相比，能够实现更高的准确性，专业化:通过专注于特定数据，模型在目标任务上变得高度熟练，但可能会失去一些泛化能力。相比之下，零样本学习利用模型广泛的预训练知识，无需额外的特定任务训练，使其更具通用性，但可能在特定任务上不够精确。

56 梯度检查点如何减少大型 LLM 训练中的内存使用?
梯度检查点是大型 LLM 训练中的一种节省内存的技术。它不是在正向传播过程中存储每一层的激活值，而是在反向传播过程中选择性地重新计算一些激活值，以内存使用换取额外的计算。这种技术:
减少内存占用:通过按需重新计算中间层，存储激活值所需的内存量显著减少，从而能够在内存有限的硬件上训练更大的模型，启用更深的模型:梯度检查点允许在不超过内存限制的情况下训练更深的模型，使其成为优化大规模 LLM 训练的有价值工具。这种方法特别适用于训练需要大量内存资源的非常深的神经网络。

57 多任务学习如何使 LLM 受益?
多任务学习涉及同时在多个任务上训练 LLM，这带来了几个好处!
更好的泛化能力:通过从多样化任务中学习，模型能够在各种领域更好地泛化，从而提高其在相关任务中的性能。
参数共享:模型在任务之间共享参数，这有助于防止模型过拟合单一任务，并增强模型的整体鲁棒性。
效率:多任务学习减少了为每个任务单独训练模型的需求，使其计算效率更高，并允许 LLM 用一个模型处理多个用例。
这种方法利用了相关任务可以从共享学习信号中相互受益的事实，从而产生更具多功能性的模型

58 课程学习如何帮助 LLM 学习复杂任务?
课程学习是一种训练策略，模型首先在较简单的任务或示例上进行训练，然后逐步过渡到更复杂的任务。这种方法模仿了人类的学习方式，并提供了几个优势:
更好的收敛性:从简单任务开始，模型首先学习基本概念，这有助于其在学习更困难任务时更快地收敛。
更好的泛化能力:课程学习帮助模型建立坚实的基础，从而在复杂任务上表现更好，并减少过拟
更稳定的训练:逐步增加任务难度可以减少训练过程中模型不稳定的可能性，尤其是对于大型LLM。
这种结构化的训练方法有助于 LLM 在需要更高推理水平或抽象能力的任务上实现更好的性能。

59 超参数调整如何影响 LLM 的性能?
超参数调整是优化模型超参数(例如学习率、批量大小、dropout 率)以实现最佳性能的过程。对于 LLM，这一点尤为重要，因为:
影响收敛性:例如，学习率的选择决定了模型在训练过程中的收敛速度。调整不当的学习率可能导致收敛缓慢，甚至使模型无法有效学习。防止过拟合/欠拟合:正确调整正则化参数(如dropout)有助于防止模型过拟合训练数据，同时保持对未见数据的高性能。
最大化准确性:微调超参数可以在特定任务上显著提高模型的准确性，特别是在语言生成、翻译或总结等领域。
有效的超参数调整是针对特定任务或数据集优化LLM 性能的关键步骤。

60 对比学习如何改进 LLM 的表示?
对比学习是一种自监督学习技术，模型通过学习区分相似和不相似的示例来进行训练。对于LLM，它特别有效地改进了
语义表示:通过学习哪些句子或单词对在语义上相似或不相似，对比学习帮助模型创建更好的嵌入，捕捉文本的含义和上下文。对噪声的鲁棒性:模型学会识别输入之间的关键差异，使其对噪声或模糊数据更具鲁棒性泛化能力:对比学习鼓励模型学习更有意义的表示，这些表示在不同的 NLP 任务中具有更好的泛化能力。
这种技术常用于句子嵌入、文档聚类和检索等任务，其中语义理解至关重要

61 知识图谱整合如何增强 LLM?
将知识图谱与 LLM 整合使模型能够将其预测与结构化的事实知识相结合。这种整合提供了几个优势 :
事实准确性:通过引用知识图谱，模型可以交又检查事实，减少产生幻觉或生成错误信息的可能性。
增强推理能力:知识图谱使模型能够基于实体之间的关系进行逻辑推理和推断，提高其回答复杂查询的能力。
上下文理解:LLM 从知识图谱的结构化性质中受益，这有助于它们更好地理解不同信息片段之间的上下文和关系。
知识图谱整合在问答、实体识别和推荐系统等应用中特别有用。

62 什么是上下文窗口大小，它如何影响 LLM 的性能?
上下文窗口大小是指模型一次能够处理的最大token数量。它对 LLM 的性能有显著影响，因为
更长的上下文理解:更大的上下文窗口允许模型考虑输入序列的更大部分，提高其捕捉标记之间长距离依赖关系和关系的能力，
对长文本的性能:在文档总结或长篇问答等任务中，更大的上下文窗口使模型能够处理更长的输入，而不会截断重要信息。
与计算的权衡:增加上下文窗口大小需要更多的计算资源，因为自注意力机制的复杂性与序列长度呈二次方增长。
选择适当的上下文窗口大小对于根据手头的任务平衡模型性能和计算效率至关重要。

63 参数共享是什么，它如何提高 LLM的效率?
参数共享是一种技术，模型的多个层或部分共享相同的参数集。这减少了模型的总参数数量，而不会牺牲性能。它提供了几个优势:
内存效率:共享参数减少了模型的内存占用，使其在存储和计算方面都更加高效。改进的泛化能力:通过重用参数，模型不太可能过拟合特定任务或数据集，从而提高其对新任务的泛化能力。
更快的训练和推理:较少的参数意味着模型可以更快地进行训练和部署，使其更适合资源受限的环境。
参数共享通常用于 BERT 和 GPT 等模型，以增强可扩展性，而不会显著增加参数数量。

64 什么是多模态学习，它如何扩展LLM 的能力?
多模态学习使模型能够处理和整合来自多种类型数据(例如文本、图像、音频)的信息。在LLM 中，这是通过将文本处理与其他模态相结合来实现的，这提供了几个优势:
更丰富的理解:通过结合来自不同模态的信息模型对数据有了更全面的理解，从而在图像字幕或视频分析等任务中表现更好。跨模态推理:多模态学习使模型能够基于来自不同类型输入的信息进行推理，例如使用视觉和文本信息回答有关图像的问题。
更广泛的应用:增强多模态学习的 LLM 可以应用于更广泛的现实世界任务，如机器人技术、增强现实和人机交互。
这种整合扩展了 LLM 的潜在用例，超越了纯文本处理，开启了更多功能性 AI 系统的大门。

65 在合成数据上进行预训练如何使LLM 受益?
在合成数据上进行预训练涉及生成人工数据以补充模型的训练过程。这种方法提供了几个好处
扩展数据集:合成数据可以用来创建更大、更多样化的数据集，从而帮助提高模型的泛化能力。覆盖罕见情况:合成数据可以生成包含边缘案例或原始训练数据中可能不存在的罕见场景，从而提高模型的鲁棒性。
成本效益:生成合成数据通常比收集和标记大量真实世界数据的成本要低，使其成为一种提高模型性能的经济有效的方法。在收集真实世界数据具有挑战性的领域，如医疗或自动驾驶应用中，合成数据的预训练特别有用。

66 上下文嵌入在 LLM 中的作用是什么，它与静态嵌入有何不同?
上下文嵌入是由 Transformer 等模型生成的动态词表示，它会根据句子中周围的词而变化。相比之下，静态嵌入(如 Word2Vec 或 GloVe为每个词分配一个固定的表示，无论其上下文如何。上下文嵌入的关键优势包括
捕捉多义性:上下文嵌入可以根据上下文表示一个词的多种含义，而静态嵌入在处理不同句子中具有不同含义的词时会遇到困难性能更好:由于它们考虑了单词在句子中的完整上下文，上下文嵌入在情感分析、机器翻译和问答等任务中表现更好。
灵活性更强:上下文嵌入能够适应输入，更有效地捕捉单词和句子之间的细微关系。像 BERT 和 GPT 这样的 LLM 依靠上下文嵌入在NLP 任务中实现最先进的性能。

67 有字典 person = {‘name’: ‘Alice’, ‘age’: 25, ‘city’: ‘New York’}.
1.获取字典中 ‘age’ 对应的值。
2.向字典中添加一个键值对 ‘job’:'Engineer’3. 删除字典中 'city’这个键值对,